[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: Does sb-yahoo.el work?



lightcyanです。また自己レスです。

2009/04/29 6:18  <lightcyan.area51@xxxxxxxxx>:
> あと海外、政治、経済ニュースしか見ていませんが、読める記事の数が少ないと思います。

以下のような関数を作って確認してみました。

(defun my-test ()
  (interactive)
  (let* ((s0 "[\t\n\r ]*")
	 (s1 "[\t\n\r ]+")
	 (default (concat
		   "<a" s1 "href=\""
		   ;; 1. url
		   "\\(http://headlines\\.yahoo\\.co\\.jp/hl\\?a="
 		   ;; 2. serial number
		   "\\("
		   ;; 3. year
		   "\\(20[0-9][0-9]\\)"
		   ;; 4. month
		   "\\([01][0-9]\\)"
		   ;; 5. day
		   "\\([0-3][0-9]\\)"
		   "[^\"]*\\)"
		   "\\)"
 		   "\"" s0 ">" s0 ;"\\(?:<strong>" s0 "\\)?"
 		   ;; 6. subject
 		   "\\([^<]+\\)"
 		   "\\(?:" s0 "</strong>\\)?"
  		   s0 "</a>\\(?:" s0 "<[^>]+>\\)+" s0
 		   "\\(?:(" s0 "\\(?:<a" s1 "[^>]+>" s0 "\\)?"
 		   ;; 7. source
 		   "\\([^<)]+\\)"
  		   s0 "\\(?:</a>" s0 "\\)?"
  		   s0 ")"
 		   "\\(?:" s0 "\\|" s0 "-" s0 "\\(?:[^<]+\)" s0 "\\)?\\)"
 		   "\\|[01]?[0-9]月[0-3]?[0-9]日([日月火水木金土])\\)"
 		   ;; 8. hour
 		   "\\([012]?[0-9]\\)"
 		   s0 "時" s0
 		   ;; 9. minute
 		   "\\([0-5]?[0-9]\\)"
 		   s0 "分"
 		   "\\(?:[^<]+<a" s1 "href=\"[^\">]+\">" s0
 		   ;; 10. source
 		   "\\([^<)]+\\)"
 		   s0 "</a>\\)?"
		   )))
    (re-search-forward default)))

次のようなリンクを取りこぼしているようです。

<a href="http://headlines.yahoo.co.jp/hl?a=20090429-00000116-san-pol">「小沢辞めろ」ついに連判状
民主有志議員が検討</a><span class="ymuiPhoto"
title="[photo]">[photo]</span><span class="ymuiDate yjS">(<a
href="http://nsearch.yahoo.co.jp/bin/search?to=2&p=%bb%ba%b7%d0%bf%b7%ca%b9">産経新聞</a>)
7時56分 <a href="http://rd.yahoo.co.jp/media/news/related_article/from_list/?http://headlines.yahoo.co.jp/hl?clu=20090429-00000116-san-pol"
class="relNews">関連記事7件</a></span></li>

<li class="ymuiArrow1"><a
href="http://headlines.yahoo.co.jp/hl?a=20090429-00000613-reu-int">豚インフル感染確認は7カ国に、米国は65人に増加</a><span
class="ymuiPhoto" title="[photo]">[photo]</span><span class="ymuiDate
yjS">(<a href="http://nsearch.yahoo.co.jp/bin/search?to=2&p=%a5%ed%a5%a4%a5%bf%a1%bc">ロイター</a>)
11時6分 <a href="http://rd.yahoo.co.jp/media/news/related_article/from_list/?http://headlines.yahoo.co.jp/hl?clu=20090429-00000613-reu-int"
class="relNews">関連記事35件</a></span></li>

<a href="http://headlines.yahoo.co.jp/hl?a=20090429-00000010-rcdc-cn"><映画「南京!南京!」>虐殺シーン見て大笑い!KYカップルが映画館追い出される―中国</a><span
class="ymuiPhoto" title="[photo]">[photo]</span><span class="ymuiDate
yjS">(<a href="http://nsearch.yahoo.co.jp/bin/search?to=2&p=Record+China">Record
China</a>) 11時28分 <a
href="http://rd.yahoo.co.jp/media/news/related_article/from_list/?http://headlines.yahoo.co.jp/hl?clu=20090429-00000010-rcdc-cn"
class="relNews">関連記事13件</a></span></li>

全部photoがらみのようです。他に引っかからないものは見つかりませんでした。

以上ですがよろしくお願いします(_ _)

-- 
lightcyan