スペースモラトリアムノカミサマ

日記+コメント付きブックマーク+他人にも役に立つかもしれない情報など。
(更新情報: RSS(ツッコミ付き) / RSS(ツッコミ抜き) / LIRS)

最近の TrackBack:
2004|01|02|03|04|05|06|07|08|09|10|11|12|
2005|01|02|03|04|05|06|07|08|09|10|11|12|
2006|01|02|03|04|05|06|07|08|09|10|11|12|
2007|01|02|03|04|05|06|07|08|09|10|11|12|
2008|01|02|03|04|05|06|07|08|09|10|11|12|
2009|01|02|03|04|05|06|07|08|09|10|11|12|
2010|01|02|03|04|06|07|08|09|10|
2011|01|02|03|07|10|11|
2012|02|03|04|07|08|09|
2013|01|06|07|
2014|02|08|09|11|
2015|09|
2016|01|05|
2017|07|
2018|05|07|
2019|07|
2020|08|09|10|12|
2021|05|
2022|03|

2006/10/23

_ [Web制作][Perl] Referer 情報をタグクラウド風に表示する Google Search Cloud を試してみた

Googleの検索語によるタグクラウド「Google Search Cloud」@GIGAZINE

(てきとーに翻訳)

以下の Perl プログラムは Apache HTTP サーバの access_log 拡張形式を解析し、Google で検索されたページの referer を収集します。

リクエストは Web ページとステータスコード毎に分類されます。

そして、Web 2.0 的なサイトでよく見られるタグクラウドのようなものを HTML 4.01 Strict に準拠した Web ページとして出力します。

[Google Search Cloudより引用]

おもろい。

というわけで先月分のログを食わせてみました。

結果 (上位20位のみ) (使った gscloud.pl)

ここはマンガミーヤ関連サイトじゃないとあれほど言ったのにまだわから(ry

さて、気づいた点

  • query が UTF-8 でない場合は化ける
  • 全角空白はキーワードの区切りとして認識されない…いや、半角空白すら split されない?

欧米人が作ってるんだから仕方ないところでしょうか。

tDiary の disp_referer プラグインにも同様のオプションが付くと面白いかもしれません。

ページがどんなキーワードで検索されたかをTagCloud風に表示させるくっつきサービス@YappoLogs

これも面白そうですね。

_ [Web制作][Perl] Google Search Cloud 日本語対応など

というわけで、Google Search Cloud をちょっと改良して、

  • UTF-8 でない日本語検索語でも文字化けしないように (完全ではない)
  • 全角/半角・大文字/小文字を同一視
  • リンク元の検索ページにジャンプできるように
  • ファイル名を省略した場合は標準入力から入力

してみますた。

Unicode::Japanese

結果 (上位20位のみ) (使った gscloud-jp.pl)

それにしても、時々 「\x83}\x83\x93\x83K\x83~\x81[\x83\x84」のように、本来 % であるはずのところが \x に置き換わった Referer が入ってくることがあるのだが、なぜなのだろうか。Referer アドレスに直接飛んでもやっぱり化けてるんですが、手動で \x を % に置換してやると正常に戻る謎。

本日のツッコミ(全1件) [ツッコミを入れる]
_ ぎり (2006/10/24 11:56)

オオアリクイが連呼されててワラタ