[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
parse meta tag
- From: ari@xxxxxxxxxxxxx (ARISAWA Akihiro)
- Date: Tue, 08 Jun 2004 22:25:51 +0900
;; とりあえず報告のみ。
Impress の GAME Watch の記事が時々化けます。例えば以下の記事ですが、
Emacs21 + emacs-w3m では raw-text で decode されてしまいます。
http://www.watch.impress.co.jp/game/docs/20040603/bukyo.htm
(auto-detect に失敗するのは CP932 という Emacs21 で対応していない
文字コードだからよいとして、)meta tag に Shift_JIS との記述があるので、
Shift_JIS で decode して欲しく思いますが、そのページでは以下のように
「name="keyword"」という余計なものが入っています。
<meta name="keyword" content="text/html; charset=Shift_JIS" http-equiv="Content-Type">
おかげで w3m-meta-charset-content-type-regexp にひっかからず、
w3m-detect-meta-charset は nil となります。
こういった余計なものが入った meta tag に対応することを考えると、
w3m-detect-meta-charset では w3m-parse-attributes を使って
判定するのが良いかと思います。
;; [emacs-w3m:06656] にも書きましたが、w3m-check-refresh-attribute も
;; 同様です。
--
有沢 明宏