« アクセスログ解析してみました | トップページ | 電車男の本、発売(品川駅編)(こうさぎ) »

アクセスログ解析、その後

えーと、アクセスログ解析の続きです。

一つ前の記事で、こうさぎの機能で採取するログの形式について書きましたが、ちょっと整理してみました。


  1. こうさぎのコントロールパネルの画面で、「生ログ」を表示させた場合は、アクセス時刻は正しく表示される

  2. 同じく「先月のログをダウンロード」で、ファイルに落としてくると、アクセス時刻は[00:00:00]になってしまう

  3. 2.で落としたログファイルのフォーマットは、CLF(Common Log Format)もどきで、そのままでは、Apache系のログ解析ツールでは正しく解析できない(はず)。

ここで、1.と2.でアクセス時刻の表示に食い違いがありますが、いつものワタシの勝手な想像すると、アクセスログ自体は、おそらくデータベース(RDB系もしくはXML-DB系)に記録していて、そこから、PHPで画面用にレンダリングしたり、ダウンロード用にフォーマット整形している、と考えたんですが、どうなんでしょうか。

あと、3.のログフォーマットですが、他のWWWサーバでのログと見比べて、なんとなく原因がわかりました。

【ApacheなどのCLF形式】

192.168.1.10 - - [29/Aug/2004:13:07:45 +0900] "GET / HTTP/1.1" 200 4110 "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"

【こうさぎからファイルに落とした直後のログ形式】

192.168.1.10 - - [28/August/2004:00:00:00] "http://invoke.cocolog-nifty.com/blog/2004/08/" 200 - "http://app.cocolog-nifty.com/t/comments" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"

【CLFに近づけるため、一部加工したあとの状態】

192.168.1.10 - - [28/Aug/2004:00:00:00 +0900] "GET http://invoke.cocolog-nifty.com/blog/2004/08/ HTTP/1.0" 200 - "http://app.cocolog-nifty.com/t/comments" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"

折りかえってしまっているのでわかりづらいですが、相違点としては、

1) 日時の「月」の表記が異なる(こうさぎのログは、フルスペル)
2) 日時の後ろに「タイムゾーン」の表記がない
3) HTTPのメソッド(GETとかHEADとか)の表記がない、また、HTTPのプロトコルバージョンの表記もない
4) HTTPレスポンスコード(200)の後ろに、転送バイト数がない(ハイフン "-")

のあたりが異なりますネ。

というわけで、上記の手直し(加工)をしたログを再度、解析ツールへかけて、作り直しましたので、リンク先の内容も前回よりは多少マシになっているハズです。
ただし、検索キーワードの順位テーブルのところ、本来は、EUC-JPの文字コードなんですが、ブラウザの文字コード判定がうまくいかなくて、文字化けしてしまいます。ブラウザのエンコードの設定を再度自動判定するか、日本語(EUC)に設定してもらえば、見えるようになります(それでも一部は文字化けするかもしれないけど)。

一応、<META>タグで、charset="x-euc-jp" を<HEAD>タグの中に入れてあるんですが、どうも効いてないみたいです。これは、WebalizerがDebian標準の英語版なんで、日本語化したバイナリを作らないとダメかも。もしくは、perlのJcodeで、文字コード変換(フィルタ)を通しておくやり方をとる必要がありそう。

ちょっと、継続案件とします。(w


|

« アクセスログ解析してみました | トップページ | 電車男の本、発売(品川駅編)(こうさぎ) »

「ウェブログ・ココログ関連」カテゴリの記事

「パソコン・インターネット」カテゴリの記事

「自宅サーバ」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)




トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/17908/1858363

この記事へのトラックバック一覧です: アクセスログ解析、その後:

« アクセスログ解析してみました | トップページ | 電車男の本、発売(品川駅編)(こうさぎ) »