[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

parse meta tag



;; とりあえず報告のみ。

Impress の GAME Watch の記事が時々化けます。例えば以下の記事ですが、
Emacs21 + emacs-w3m では raw-text で decode されてしまいます。
http://www.watch.impress.co.jp/game/docs/20040603/bukyo.htm

(auto-detect に失敗するのは CP932 という Emacs21 で対応していない
文字コードだからよいとして、)meta tag に Shift_JIS との記述があるので、
Shift_JIS で decode して欲しく思いますが、そのページでは以下のように
「name="keyword"」という余計なものが入っています。

<meta name="keyword" content="text/html; charset=Shift_JIS" http-equiv="Content-Type">

おかげで w3m-meta-charset-content-type-regexp にひっかからず、
w3m-detect-meta-charset は nil となります。

こういった余計なものが入った meta tag に対応することを考えると、
w3m-detect-meta-charset では w3m-parse-attributes を使って
判定するのが良いかと思います。

;; [emacs-w3m:06656] にも書きましたが、w3m-check-refresh-attribute も
;; 同様です。

-- 
有沢 明宏