[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: \240 decoded to  



>>>>> In [emacs-w3m : No.08053] 土屋さん wrote:

>     2005-04-13  Katsumi Yamaoka  <yamaoka@jpl.org>

> 	* w3m.el (w3m-decode-buffer): Decode "\240" into "&nbsp;".

> というような変更が commit されましたが,これは何故必要になったのでしょ
> うか?

例えば sb-zeit-de で読める http://www.zeit.de/2005/15/rainier な
どのデコードする前のコンテンツに \240 というデータが含まれていて、
最終的に豆腐が表示されてしまうためです。具体例は出せませんが、
&#160; として含まれていたのもありました。

実際に "\240" → "&nbsp;" の変換を行なうのは、ページが指定する
charset が iso-8859-1 で、かつ Emacs が windows-1252 をサポート
している場合に限定しています。今のところ、実は windows-1252 を使っ
ているが charset に iso-8859-1 を指定しているページでしか、見た
ことが無いので。

> w3m-0.5 以前(w3m-m17n 統合前)の w3m 内部文字コードで使われていた
> 空白文字のために必要になったのだとすれば,w3m-ccl.el 内で

>   (defconst w3m-internal-characters-alist
>     '((?\x90 . ? )			; ANSP (use for empty anchor)
>       (?\x91 . ? )			; IMSP (blank around image)
>       (?\xa0 . ? ))			; NBSP (non breakble space)
>     "Alist of internal characters v.s. ASCII characters.")

> と定義されている通り,w3m との通信用文字コードとして euc-japan の代わ
> りに w3m-euc-japan を使う方が良いと思うのですが,どうでしょうか?

残念ながら、ぼくが対象としたのは (自分では読めない) ドイツ語のペー
ジなんです。