« 雨天決行(こうさぎ) | トップページ | アクセスログ解析、その後(こうさぎ) »

アクセスログ解析の文字化け(いちおう解決)

仕掛かり案件だった、アクセスログ解析の問題点その後について、とりあえず解決したのでご報告。

まず、問題点のおさらい。

1) 解析ページの文字コードの自動判定がうまくいかない件
2) ダウンロードしたログ上で、アクセス時刻が[00:00:00]になってしまう件
3) 同じくダウンロードしたログ上で、転送バイト数が "-"の件

えーと、原因の簡単な3)から。3)については、これは仕様ですね。こうさぎのサーバ自体が、httpdになっている訳ではないので、どうやっても転送バイト数を知る術がないですから仕方がありませんネ。

次に、2)は、これはおそらく意図的にやっているのか、単にフォーマット変換するプログラムがヘボいのかのどちらかだと思いますが、意図的に[00:00:00]にしている可能性がありそうです。それは、こうさぎのコントロールパネル上で表示する分には、認証を通過した登録者本人がその場でナマのログとかあらかじめ用意された軸で見るだけですが、ダウンロードして高機能なログ解析ツールで解析するとアクセスしたホスト(IP)とアクセス時刻の相関関係や傾向がわかります(今回使用している、Webalizerでは、ここまで高度なことはできません)。また、解析結果が手元に残ります。こういった高度なアクセスログ解析をあまりヨシとしない考えの方もいらっしゃるので、そういう解析の実質的な無効化のため、ダウンロードするファイルには、タイムスタンプをネグっているんではないか、と想像しましたが、穿ち(うがち)すぎデスカ?

#こうさぎのコントロールパネル上では、アクセス時刻が見えるということは、データとしては存在していて、画面表示用にはそれを取り出している訳ですから、ダウンロード用ファイルに取り出せない技術的理由はないはずです。それでも、実際にはタイムスタンプをネグっているのだから、意図的にやっているのではないか、と考えるわけです。

というわけで、あまり厳密な解析をするつもりもないので、いま自宅サーバ上で公開している解析ページには、アクセス元のホスト名(もしくはIPアドレス)のリスト表示をやめました。時系列のアクセス数、アクセス上位のURLのリスト、Entry/ExitのURLのリスト、リファラーのリスト、頻度の高い検索文字列のリスト、ユーザエージェントの種類、国別リストだけにしました。

最後に、1)の文字化けの件ですが、いちおう解決しました。

直接の原因は、WWWサーバソフトとして thttpd を使用しているんですが、その設定ファイル、thttpd.confで、charset="Shift_JIS" としていたため、HTTPヘッダ上で、charset(エンコーディング)情報が"Shift_JIS"として渡ってくるようになっていました。ブラウザ側では、HTTPヘッダの情報を解釈してエンコードを"Shift_JIS"と判定していて、文字化けが発生していたのです。

解決策としては、thttpd.conf で、charset="" として、明示的に指定しないようにしました。また、文字化け対策用のEUC-JP固有の漢字コードを埋め込むように、webalizer.conf の HTMLHead 文のコメントアウトをはずし、設定しなおしました。具体的には、

HTMLHead  <!--\xfd\xfe-->
※ ("\xfd\xfe"は、直接、16進コードで 0xfd 0xfeのバイナリコードを埋め込んであります)

という文を追加して、<META>タグで指定していたcharset="x-euc-jp"はやめました。
この文字化け対策については、次のところを参考にしました(今回は、Yahoo Japanでの対策方法を流用させてもらいました)。

・Yahoo! JAPANが実施している文字化け対策
・文字化けしないようにするには
・「美乳」で文字化けが直るって本当?

#「美乳」はさすがにアレなんで、3番目の記事にあるコード表をじーっと見て、「収入増理屈」という組み合わせを見つけましたけど、 0xfd 0xfe のほうがピンポイントで特異点にあたるので、今回は使いませんでした。

これで、一番気にかかっていた、文字化けは解消できたハズなので、これにて、クローズとします。(w

|

« 雨天決行(こうさぎ) | トップページ | アクセスログ解析、その後(こうさぎ) »

「ウェブログ・ココログ関連」カテゴリの記事

「パソコン・インターネット」カテゴリの記事

「自宅サーバ」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/17908/1963638

この記事へのトラックバック一覧です: アクセスログ解析の文字化け(いちおう解決):

« 雨天決行(こうさぎ) | トップページ | アクセスログ解析、その後(こうさぎ) »