[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: mew-shimbun.el (Very alpha ^^;)



すみません、返事が遅くなりました。


>> On Wed, 17 Oct 2001 22:05:59 +0900 (JST)
>> 「白井」== shirai@rdmg.mgcs.mei.co.jp (Hideyuki SHIRAI (白井秀行)) said as follows:

白井> elmo-shimbun.el や nnshimbun.el ともっとも違う点は、最初に、記事
白井> をローカルに全部持ってきてしまう、ということです。

このアプローチでは、nnshimbun.el のように記事をリモートのサーバー上に
置いてあるアプローチとは異なり、記事を namazu などで自由に検索できると
いうメリットがあります。

しかし、

土> ML archive などの静的なコンテンツについては問題ないと思うのですが、
土> 同じ URL でも取得したタイミングによって内容が変わってしまうような
土> 一部のニュースサイト(CNET など)や日記類については、取得済コンテン
土> ツの妥当性検査が必要になるので難しい…。

例えば、午前中に CNET から記事を取得すると「この記事は翻訳中だよ、原文
記事はこちら」という記事が得られ、本文情報はほとんど存在しない、という
ことになります。

nnshimbun.el / elmo-shimbun.el のアプローチでは、キャッシュを一旦破棄
して、記事を再表示させると簡単にこの問題を回避できますが、
mew-shimbun.el のように記事を全てローカルに持つアプローチでは、この問
題を簡単に回避できません。

同様の問題が、URL が日付のみから決定される日記系サイトなどでも発生する
はずです。


白井> P.S.

白井> 結構変えてしまいました。

どうぞ、どうぞ。

白井> 特に二分木サーチの部分を無くしちゃってごめんなさい。folder 単位
白井> に DB をわけたので list で大丈夫だなぁ、とヒヨってしまいました。

全然構いませんよ。でも、folder 単位に最初から分かれているのでしたら、
mew-shimbun-id-format による正規化は要らないでしょう。それから、この実
装では、mew-shimbun-db-file が太り続けますから、適切な expire 手順が必
要になると思います。

;; でもって、太り続ける -> alist では動作速度が不安 -> obarray で実装
;; するのも、適切なハッシュサイズが計算できない -> binary search で実
;; 装しようか、という考えだったのでした。真面目に設計するのでしたら、
;; 登録済みの Message-ID の数から、ハッシュサイズを計算して obarray で
;; 実装するのかなあ…。

-- 
土屋 雅稔  ( TSUCHIYA Masatoshi )