[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: shimbun-rss-build-message-id



>>>>> In [emacs-w3m : No.10061] 土屋さん wrote:
>>> On Wed, 26 Mar 2008 18:14:33 +0900
>>> yamaoka@xxxxxxx (Katsumi Yamaoka) said as follows:

>>RSS 記事の Message-ID を生成する `shimbun-rss-build-message-id' 関数は、
>>記事の url の md5 を計算するときに url 文字列の "?" または "#" 以降の文
>>字をはぎとります。

> # 以後は,明らかに削除できます.

はい。

> 問題は,? 以後の扱いです.ご存じの通り,? 以後は CGI の query 部分である
> わけですが,ここに session ID が埋め込まれている場合が多々あります.単な
> る session ID の場合,ある動的に生成される index page を1度目に取得した時
> は,

>     <a href="0001?sid=0001">1番目の記事</a>

> となっていたものが,2度目に取得した時には,

>     <a href="0001?sid=0002">1番目の記事</a>

> となっていることがあります.こういう場合には,? 以後を削除してから,MD5
> を求めることによって,一意な message ID が得られます.

なるほど。Shimbun 記事の index ページを複数回取得すると、そのつ
どページに列挙されている各記事の url が変化する可能性があると。

>>ところが毎日新聞の次の二つのグループでは当てはまりません。

> 上記の通り,これには一般解はないと思います.サイト毎に処理が異なりますの
> で.

その通りですね。これが新規の関数だったら、個人的には url を加工
しないものをデフォルトにして [?#] 以降をはぎとる必要がある場合だ
け対処する方に票を入れたいですが、今となっては sb-rss.el を使う
すべての shimbun モジュールを走査する元気はありません。;-)
了解しました。
-- 
山岡