[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: w3m-decode-buffer



>>>>> In [emacs-w3m : No.09406] 青田さん wrote:

> もしかすると、私の環境依存かもしれないのですが
> <html lang="ja">
>   <head>
>     <meta http-equiv="Content-Type" content="text/html; charset=euc-jp">
>   </head>
>   <body>
>     てすと
>   </body>
> </html>
> というHTMLをeuc-jpで保存し、emacs-w3mでソースを見るとSJISに判定されて
> しまいました。

> 今のソースでは、content-typeがtext/htmlの時にだけ
> metaタグから文字コードを取得していますが、about://source/の時にも
> metaタグを使用しても問題はないと思いますが、いかがでしょうか。

はい、まったく賛成です。いただいたパッチを当てました (ChangeLog
の日付は UT を元にしています)。どうもありがとうございます。

> また、以下はパッチとは関係ないのですがw3m-decode-bufferで気になった所
> がいくつかあります。
> 1.about://source/時も&#nnn;、src・hrefの中の非ASCII文字をdecodeしてい
> ること

src・href の方は *encode* ですよね?
"http://テスト/" が "http://%83e%83X%83g/" になってしまうのは、
2007-02-20 の変更の副作用です。これは直そうと思います。

逆に元が "http://%83e%83X%83g/" だったものは "http://テスト/" と
して表示した方が良いのではないかと思うんですが、いかがでしょうか。

ぼくの勝手な解釈では、about://source/ の目的は、&#nnn; の decode
を含めて、ソースを人間が見やすく表示することなんですよね。

本当に生で無修正のソースが必要なとき、ぼくは w3m-download や
wget を使いますから。

> 2.""でくくったものはdecodeされるが、''ではされないこと

疎くてすみません。具体的には?

> 3.日本語を含むURIで、#アンカーが使えなさそうなこと
> 4.3等の理由で日本語アンカーが使えないこと
> (3・4はサイトがHTML4.01に準拠していれば問題はないのですが…)

うーむ、これはとりあえず TODO リストに追加。

> よろしければ検討おねがいします。
> ;; ソース読んでたらいつのまにか朝…

お疲れさまです。
ところで、今後はなるべくご自分で ChangeLog の項目を書いて下さる
ことをお願いします。変更の真意を一番的確に表現できるのは、何といっ
てもご本人ですから。:)
-- 
山岡