[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
日本語 WIKIPEDIA の anchor
- From: Hideyuki SHIRAI (白井秀行) <shirai@xxxxxxxxxxx>
- Date: Sat, 18 Nov 2017 15:59:50 +0900 (JST)
- X-ml-name: emacs-w3m
- X-mail-count: 12812
ご無沙汰しています。白井です。
最近、日本語WIKIPEDIA で anchor たどれないな、と思っていたので調
べました。
症状は、下記のページで
https://ja.wikipedia.org/wiki/HyperText_Markup_Language
目次
* 1 特徴 <-- no such anchor
* 2 HTML文書 <-- anchor をたどれる
となります。
WIKIPEDIA がマルチバイト文字の anchor を作るときに、UTF8の各BYTE
を "." で区切って生成しているようですが、
<a href="#.E7.89.B9.E5.BE.B4"><span class="tocnumber">1</span>
<span class="toctext">特徴</span></a></li>
のように "." で始めているのが敗因で
w3m-filter-add-name-anchors() は href=\"#\\([a-z][-.0-9:_a-z]*\\)\"
と受けているため、emacs-w3mが扱える <a name=XXX> の生成をしてい
ません。
ここを href=\"#\\([\\.a-z][-.0-9:_a-z]*\\)\ に変えれば動作します
が、HTML4 だと name や id は [A-Za-z] で始まると規定されていたの
で悩ましいところです。
どうしましょうか?