[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: \240 decoded to
- From: Katsumi Yamaoka <yamaoka@xxxxxxx>
- Date: Wed, 13 Apr 2005 11:34:02 +0900
- X-ml-name: emacs-w3m
- X-mail-count: 08054
- References: <87fyxvzawj.fsf@namazu.org>
>>>>> In [emacs-w3m : No.08053] 土屋さん wrote:
> 2005-04-13 Katsumi Yamaoka <yamaoka@jpl.org>
> * w3m.el (w3m-decode-buffer): Decode "\240" into " ".
> というような変更が commit されましたが,これは何故必要になったのでしょ
> うか?
例えば sb-zeit-de で読める http://www.zeit.de/2005/15/rainier な
どのデコードする前のコンテンツに \240 というデータが含まれていて、
最終的に豆腐が表示されてしまうためです。具体例は出せませんが、
  として含まれていたのもありました。
実際に "\240" → " " の変換を行なうのは、ページが指定する
charset が iso-8859-1 で、かつ Emacs が windows-1252 をサポート
している場合に限定しています。今のところ、実は windows-1252 を使っ
ているが charset に iso-8859-1 を指定しているページでしか、見た
ことが無いので。
> w3m-0.5 以前(w3m-m17n 統合前)の w3m 内部文字コードで使われていた
> 空白文字のために必要になったのだとすれば,w3m-ccl.el 内で
> (defconst w3m-internal-characters-alist
> '((?\x90 . ? ) ; ANSP (use for empty anchor)
> (?\x91 . ? ) ; IMSP (blank around image)
> (?\xa0 . ? )) ; NBSP (non breakble space)
> "Alist of internal characters v.s. ASCII characters.")
> と定義されている通り,w3m との通信用文字コードとして euc-japan の代わ
> りに w3m-euc-japan を使う方が良いと思うのですが,どうでしょうか?
残念ながら、ぼくが対象としたのは (自分では読めない) ドイツ語のペー
ジなんです。