[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: [asahi.kansai-special]: <...>s in subject



>> On Fri, 30 Jul 2004 17:46:07 +0900
>> 「山」== yamaoka@jpl.org (Katsumi Yamaoka) said as follows:

山> 毛無関係…<ruby>け<rt><b>、</b><ruby><ruby>な<rt><b>、</b><ruby><ruby>し<rt><b>、</b><ruby>合い

山> となっており、今までの sb-asahi.el では記事の存在そのものが検出で
山> きなくなっていました。そこで暫定的な対策を幹でだけ行ないました。そ
山> れは、

山> 1. subject 文字列が `<...>' を含むことを許す。
山> 2. 抽出した subject 文字列を w3m-fontify() で処理して、普通に読む
山>    ことができる日本語に変換する。

山> 1. は良いとして、2. はいろんな点で明らかによろしくないことです。妙
山> 案がありましたら...

http://www.w3.org/TR/ruby/ を確認してみたのですが,この朝日新聞のタグ
は規格違反だろうと思います.普通の ruby タグの用法では,

    <ruby><rb>漢字</rb><rt>kanji</rt></ruby>はむずかしい.

のようにタグを付与すると,

    kanji
    漢字は難しい.

のように表示されるというもののはずなんですが,上の朝日新聞の例では,

  (a) rb 要素がない.
  (b) 閉じタグ </ruby> がない.

ので,どのように表示されて欲しいのか見当もつきません.ひょっとすると,
    、、、
    けなし

と傍点をつけたかったのかとも思いますが,それだったら,

    <ruby><rb>け</rb><rt><b>、</b></rt></ruby>(以下略)

としてもらわないと….それとも,古い規格では上記のような略記法が存在し
たのでしょうか?

というわけで,

(1) 規格違反のタグについて対処を考え出すのは殆んど不可能だろうと思いま
    すので,タグを含む文字列をそのまま表題とするしかないのではないでしょ
    うか.

(2) 規格に添ったタグを含む表題の場合には,適当な手段でテキストのみの形
    式にすることが必要になるでしょう.w3m-fontify() を呼ぶのも一案です
    が,陽に w3m.el に依存することが問題なのであれば,<rt>...</rt> な
    部分を削除したり,<img> タグの alt 文字列のみを残すような関数を書
    くという方法が考えられると思います.

-- 
土屋 雅稔 ( TSUCHIYA Masatoshi )