[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

日本語 WIKIPEDIA の anchor



ご無沙汰しています。白井です。

最近、日本語WIKIPEDIA で anchor たどれないな、と思っていたので調
べました。

症状は、下記のページで
https://ja.wikipedia.org/wiki/HyperText_Markup_Language

目次

  * 1 特徴      <-- no such anchor
  * 2 HTML文書  <-- anchor をたどれる

となります。

WIKIPEDIA がマルチバイト文字の anchor を作るときに、UTF8の各BYTE
を "." で区切って生成しているようですが、

<a href="#.E7.89.B9.E5.BE.B4"><span class="tocnumber">1</span>
<span class="toctext">特徴</span></a></li>

のように "." で始めているのが敗因で
w3m-filter-add-name-anchors() は href=\"#\\([a-z][-.0-9:_a-z]*\\)\"
と受けているため、emacs-w3mが扱える <a name=XXX> の生成をしてい
ません。

ここを href=\"#\\([\\.a-z][-.0-9:_a-z]*\\)\ に変えれば動作します
が、HTML4 だと name や id は [A-Za-z] で始まると規定されていたの
で悩ましいところです。

どうしましょうか?