[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

sb-yahoo.el doesn't pick up some articles



  Yahoo! のニュースの、例えば近畿のサブカテゴリ(?)としては、大阪、兵庫、
京都、滋賀、奈良、和歌山がありますが、shimbun-yahoo-groups-alist や
shimbun-yahoo-groups の default 値にはこれらサブカテゴリはありません
(別に、入れてとお願いしているのではないので、誤解ありませんよう)。

それで、例えば「大阪」のニュースを見たければ、その URL は
http://headlines.yahoo.co.jp/hl?c=l27&t=l ですから、c=??? の部分を抜き
出して

(eval-after-load "sb-yahoo"
  `(setq shimbun-yahoo-groups-alist
	 (cons (cons "osaka" "l27") shimbun-yahoo-groups-alist)
	 shimbun-yahoo-groups
	 (mapcar 'car shimbun-yahoo-groups-alist)))

とか .emacs (あるいは .emacs-w3m) に書けば @yahoo.osaka が利用できるよ
うになります (単独の post に耐える内容でないので、bug report に混ぜさ
せていただきました)。

  ところが、いくつかのニュースを取りこぼしているので、不思議に思い調べ
てみました (ここからが本題です)。

Yahoo! のニュースがピックアップする target は、

  <small> - 28日(水)20時26分</small><br><li><a href="http://headlines.yahoo.co.jp/hl?a=20030528-00000006-mai-l27">[あげまっせ]「南條亮ジオラマの世界」の入場券をペア20組に /大阪(毎日新聞)</a>

のような行ですが、message-id を作る際、a=20030528-00000006 の文字列か
ら、日付 20030528 と記事番号 6 番を抜き出し unique な文字列に仕上げて
います。ところが、少なくとも大阪の web page では
a=20030528-00000006-mai と a=20030528-00000006-abc がある↓

  <small> - 28日(水)20時17分</small><br><li><a href="http://headlines.yahoo.co.jp/hl?a=20030528-00000006-abc-l27"><大阪>看護助手が患者に刺され死亡(朝日放送)</a>

ので後者は同一 message-id となってしまい、無視されることになります。

そこで、mai-127 とか abc-127 の部分まで抜き出して message-id を作るよ
うにしてみたところ、取りこぼしていた記事が読めるようになったのですが、
この変更で message-id が既存の記事と変わってしまうので (自分が作る
backend だったらさっさと commit しちゃうんですが)、影響が大きいので、
念のため先に ML でお伺いすることにしました。

如何でしょうか?

Attachment: sb-yahoo.el.diff
Description: Binary data

Attachment: ChangeLog
Description: Binary data

-- 
中島幹夫 <minakaji@namazu.org>
home: http://www.asahi-net.or.jp/~gy2m-nkjm
diary: http://slashdot.jp/journal.pl?op=display&uid=5767