[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: emacs-w3m, w3m-m17n and mule



http://www.mypsion.ru/ でいくつかの問題があるようなので、
整理させてもらいました。

● Mule-UCS + w3m を使用した場合、auto-detect の結果が iso-8859-1 となる
   (setq w3m-coding-system-priority-list '(cyrillic-koi8)) としてもダメ。

>>>>> In [emacs-w3m : No.03691] 
>>>>>	Hideyuki SHIRAI (白井秀行) <shirai@rdmg.mgcs.mei.co.jp> wrote:

白井> (detect-coding-with-priority (point-min) (point-max) '((coding-category-ccl koi8-r)))
=> (iso-latin-1-unix raw-text-unix no-conversion)

(set-language-environment "Cyrillic-KOI8") していると、cyrillic-koi8 に
なりました。どうやら、set-language-environment-coding-systems で
やっている以下の処理が効いているようです。

(progn
  (set (coding-system-category 'cyrillic-koi8) 'cyrillic-koi8)
  (update-coding-systems-internal))


● Mule-UCS + w3m を使用した場合、Cc で cyrillic-koi8 を指定しても、
   部分的に ? となる。

>>>>> In [emacs-w3m : No.03687] 
>>>>>	Katsumi Yamaoka <yamaoka@jpl.org> wrote:

山岡さん> I also see some ???s as the following picture, but I don't know
山岡さん> what they should be or how do we fix them.

どうにもならない気がします。w3m-ucs-mule-ucs が t の場合は、
euc-japan で表現できない文字は実体参照に変換するのですが、
タグの属性値などにある実体参照は、w3m で -halfdump 時に "?" と
なってしまうようです。

% cat t.html
<html>
<head><title>&#x411;&#x42f;&#x415;</title></head>
<body>&#x411;&#x42f;&#x415;</body>
</html>
% w3m -halfdump t.html
<head><title_alt title="???"></head>&#x411;&#x42f;&#x415;
<internal>
<title_alt title="???">
</internal>


● w3m-m17n を使用している場合に化ける。

私の元では http://www.nijino.com/ari/tmp/emacs-w3m-m17n-ru.png のように
激しく化けました。Cc で koi8 を指定すると問題ないけど、
cyrillic-koi8 では http://www.nijino.com/ari/tmp/emacs-w3m-m17n-ru2.png
のようにやはり化けました。

w3m-m17n に -I を指定しなかったり、w3m-m17n の知らない coding-sysmte を
指定した時に、w3m-m17n 側で正しく判定できないのでしょうね。

(setq w3m-halfdump-command-arguments
      '("-halfdump" "-o" "ext_halfdump=1" "-I" "KOI8-R" "-O" "ISO-2022-JP-2" "-o" "strict_iso2022=0"))
としてしまうと、何もしなくとも化けないのですが…。

-- 
有沢 明宏