日記+コメント付きブックマーク+他人にも役に立つかもしれない情報など。
(更新情報: RSS(ツッコミ付き) / RSS(ツッコミ抜き) / LIRS)
- p (01/03)
- Thiramil (10/26)
- 久々にいまむらを食べたい通りすがり (09/28)
- Fluxadir (05/16)
- Antiprestin (11/08)
2006/10/23
_ [Web制作][Perl] Referer 情報をタグクラウド風に表示する Google Search Cloud を試してみた
Googleの検索語によるタグクラウド「Google Search Cloud」@GIGAZINE
(てきとーに翻訳)
以下の Perl プログラムは Apache HTTP サーバの access_log 拡張形式を解析し、Google で検索されたページの referer を収集します。
リクエストは Web ページとステータスコード毎に分類されます。
そして、Web 2.0 的なサイトでよく見られるタグクラウドのようなものを HTML 4.01 Strict に準拠した Web ページとして出力します。
[Google Search Cloudより引用]
おもろい。
というわけで先月分のログを食わせてみました。
ここはマンガミーヤ関連サイトじゃないとあれほど言ったのにまだわから(ry
さて、気づいた点
- query が UTF-8 でない場合は化ける
- 全角空白はキーワードの区切りとして認識されない…いや、半角空白すら split されない?
欧米人が作ってるんだから仕方ないところでしょうか。
tDiary の disp_referer プラグインにも同様のオプションが付くと面白いかもしれません。
ページがどんなキーワードで検索されたかをTagCloud風に表示させるくっつきサービス@YappoLogs
これも面白そうですね。
_ [Web制作][Perl] Google Search Cloud 日本語対応など
というわけで、Google Search Cloud をちょっと改良して、
- UTF-8 でない日本語検索語でも文字化けしないように (完全ではない)
- 全角/半角・大文字/小文字を同一視
- リンク元の検索ページにジャンプできるように
- ファイル名を省略した場合は標準入力から入力
してみますた。
結果 (上位20位のみ) (使った gscloud-jp.pl)
それにしても、時々 「\x83}\x83\x93\x83K\x83~\x81[\x83\x84」のように、本来 % であるはずのところが \x に置き換わった Referer が入ってくることがあるのだが、なぜなのだろうか。Referer アドレスに直接飛んでもやっぱり化けてるんですが、手動で \x を % に置換してやると正常に戻る謎。
オオアリクイが連呼されててワラタ