[Date Prev][Date Next][Thread Prev][][Date Index][Thread Index]

Re: google での文字化け



From: Hideyuki SHIRAI (白井秀行) <shirai@xxxxxxxxxxx> 曰く
Subject: [emacs-w3m:08659] Re: google での文字化け
Message-ID: <20060511.185600.68545981.shirai.hideyuki@xxxxxxxxxxxxxxxxxxx>
Date: Thu, 11 May 2006 18:56:00 +0900 (JST)

> > Firefox でも http://www.google.co.jp/webhp?oe=Shift_JIS に
> > アクセスして同様の操作をすると化けたので、Google の Bug でしょう。
> > 「イメージ」などのリンクの URL は ie=Shift_JIS なのに
> > キーを UTF-8 でエンコードしているためですね。
> 
> 本当だ。普通のブラウザ?だと気付かないしね。

Goolge ヘルプセンタにたれこんでおきました。

-- 
白井秀行 (mailto:shirai@xxxxxxxxxxx)

以下、タレコミ分

こんにちは。白井と申します。
検索でのバグと思われるものを発見したので報告します。

Google 検索はブラウザの User-Agent: をみて、Firefox や Internet Explorer などなら UTF-8、それ以外の agent で日本語環境なら Shift_jis で検索を行なうようですが、Shift_jis で検索後、検索結果のページの イメージ、ニュース ボタンをそのまま押すと、検索文字列が文字化けしたまま検索を行ないます。

例えば、w3m (http://w3m.sourceforge.net/) や emacs-w3m (http://emacs-w3m.namazu.org/) のような Shift_jis アクセスになるブラウザを使い、

(1) http://www.google.co.jp にアクセス。
(2) 検索フォームに "日本語"を入力後、google 検索。
(3) "http://www.google.co.jp/search?hl=ja&ie=Shift_JIS&q=%93%fa%96%7b%8c%ea&btnG=Google+%8c%9f%8d%f5&lr=lang_ja"
   という URL でサーバから応答。
(4) そのまま イメージボタンをプッシュ。
   ここでイメージボタンには
   "http://images.google.co.jp/images?hl=ja&ie=Shift_JIS&q=%E6%97%A5%E6%9C%AC%E8%AA%9E&btnG=Google+%E6%A4%9C%E7%B4%A2&lr=lang_ja&sa=N&tab=wi"
   というアンカが割り当てられている。
(5) (4) の URL のまま、サーバから応答があるが、検索文字が文字化けしているため、期待しているものが得られない。

となります。

ここで、"日本語" を符号化すると
Shift_jis: 93 fa 96 7b 8c ea
UTF-8: e6 97 a5 e6 9c ac e8 aa 9e
ですので、(4) のときにサーバがアンカとして

(a) ie は shift_jis を指定している
(b) query 文字列は utf-8 で符号化している

と矛盾した URL を返してきているのが文字化けの原因だと思われます。
可能でしたら、Poor なブラウザを使っている人々(私達?)のために修正してくださるとありがたいです。

なお、Firefox や Internet Explorer でも、最初に
http://www.google.co.jp/webhp?oe=Shift_JIS
にアクセスすると同様の現象が確認できます。