[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: ;;; sb-fau.el --- Freie ArbeiterInnen Union shimbun backend



Tsuyoshi CHO writes:

> 結局追い詰めると、
>  www.fau.orgはHTTPヘッダ/HTML Metaで文字コードを出していない
>  ->ブラウザが自動判別しようとする。
>   * Firefox on Win: windows-1252
>   * w3m/emacs-w3m : shift_jis(私の場合)
>  -> shift_jisの範囲外の文字があると化ける。
> ということのようです。
>
> # ちなみに問題が出たのは
> #  http://www.fau.org/artikel/art_050308-191705/print.html
> # です。

このページは windows-1252 でエンコードされていて、Emacs 21 以前は
標準ではそれに対応していないためと思われます。手元の Emacs 22 では
問題無く表示されました。

shift_jis よりは latin-iso8859-1 でデコードされる方がマシなので、
野宮さんが提案されているように shimbun-fau-coding-system を
定義するのが良いと思います。windows-1252 が利用可能であれば
それ使うべきですから、以下のような感じでしょうか。

(defvar shimbun-fau-coding-system
  (or (shimbun-find-coding-system 'windows-1252)
      (shimbun-find-coding-system 'latin-iso8859-1)))

もちろん (defalias 'shimbun-find-coding-system 'w3m-find-coding-system) 
です。

;; あっ、codepage-ex は cp1252 を定義していて、windows-1252 への
;; alias はない(^^;


野宮 賢 / NOMIYA Masaru writes:

> 小生の場合、化けるのは、
>   http://www.fau.org/artikel/art_050213-130628
> です。調べますと、charset iso-8859-1 なのに iso-2022-jp で読み込んでいるた
> めに化けているようです。で、
> (defvar shimbun-fau-coding-system 'iso-8859-1)
> を加えますと、文字化けは解消しますが、ウムラウト等が ? となってしまいます。
> spiegelでは大丈夫なのに....(_ _?

手元では w3m-(input|output)-coding-system が utf-8 であれば
問題無いのですが、iso-2022-7bit-ss2 だと ? になってしまいました。
これは原因が思い付きません。windows-1252 にしか無い文字であれば
分かるのですが…。


なお、私の環境は以下の通りです。

 - Emacs-22.0.50 w/o Mule-UCS
 - w3m version w3m/0.5.1, options lang=en,m17n
 - w3m-input-coding-system => utf-8
 - w3m-output-coding-system => utf-8

-- 
有沢 明宏