[Date Prev][Date Next][Thread Prev][Thread Next][Date Index][Thread Index]
Re: mew-shimbun.el (Very alpha ^^;)
すみません、返事が遅くなりました。
>> On Wed, 17 Oct 2001 22:05:59 +0900 (JST)
>> 「白井」== shirai@rdmg.mgcs.mei.co.jp (Hideyuki SHIRAI (白井秀行)) said as follows:
白井> elmo-shimbun.el や nnshimbun.el ともっとも違う点は、最初に、記事
白井> をローカルに全部持ってきてしまう、ということです。
このアプローチでは、nnshimbun.el のように記事をリモートのサーバー上に
置いてあるアプローチとは異なり、記事を namazu などで自由に検索できると
いうメリットがあります。
しかし、
土> ML archive などの静的なコンテンツについては問題ないと思うのですが、
土> 同じ URL でも取得したタイミングによって内容が変わってしまうような
土> 一部のニュースサイト(CNET など)や日記類については、取得済コンテン
土> ツの妥当性検査が必要になるので難しい…。
例えば、午前中に CNET から記事を取得すると「この記事は翻訳中だよ、原文
記事はこちら」という記事が得られ、本文情報はほとんど存在しない、という
ことになります。
nnshimbun.el / elmo-shimbun.el のアプローチでは、キャッシュを一旦破棄
して、記事を再表示させると簡単にこの問題を回避できますが、
mew-shimbun.el のように記事を全てローカルに持つアプローチでは、この問
題を簡単に回避できません。
同様の問題が、URL が日付のみから決定される日記系サイトなどでも発生する
はずです。
白井> P.S.
白井> 結構変えてしまいました。
どうぞ、どうぞ。
白井> 特に二分木サーチの部分を無くしちゃってごめんなさい。folder 単位
白井> に DB をわけたので list で大丈夫だなぁ、とヒヨってしまいました。
全然構いませんよ。でも、folder 単位に最初から分かれているのでしたら、
mew-shimbun-id-format による正規化は要らないでしょう。それから、この実
装では、mew-shimbun-db-file が太り続けますから、適切な expire 手順が必
要になると思います。
;; でもって、太り続ける -> alist では動作速度が不安 -> obarray で実装
;; するのも、適切なハッシュサイズが計算できない -> binary search で実
;; 装しようか、という考えだったのでした。真面目に設計するのでしたら、
;; 登録済みの Message-ID の数から、ハッシュサイズを計算して obarray で
;; 実装するのかなあ…。
--
土屋 雅稔 ( TSUCHIYA Masatoshi )