2002年9月29日から12月18日までのWebのアクセスログをもとに、作成したプログラムを使い404の発生件数および求めた95%信頼区間をグラフに表した。
このうち信頼区間に入らなかったのは、10月4日、11月17日、11月19日、12月12日である。この4日間の「404」の発生ログは付録2に示した。この中で特徴的なものを示す。
これは、サーチエンジンなどが使用する、Web自動巡回プログラム通称ロボットと呼ばれるものが、サイトにアクセスする前に読み出すファイルである。ロボットはこれの内容に従いサイトをアクセスする。このような手順でロボットはサイトを巡回するので、robots.txtファイルは、ロボットからの無用なアクセスを防ぐ働きがある。
しかし、10月4日のデータにおいてrobots.txtのアクセスのされ方は異常である。209.237.238.164からのアクセスが合計で10回もあり、明らかに不正なアクセスである。そればかりでなく同一ドメインと思われる209.237.238.160〜209.237.238.165からのrobots.txtへのアクセスが合計で39回もあり、このドメインから異常なアクセスがあったと結論づけられる。12月12日も同様である。
11月17日は209.63.36.22からのセキュリティホールのスキャンが59回行われた。このホストはこちら側をマイクロソフトのIISというWebサーバと仮定しているので、スキャンは全て失敗している。このホストは悪意を持っていると考えられるのでアクセスを禁じるなどの対策を講じることも考えるべきである。一方、11月19日は異常である。61.78.61.163からのアクセスはまず/robots.txtへ3回アクセスした後、/~7Eで始まるアクセスが多発している。/%7Eなら、/~と同じなので正常なアクセスとなりうるが、/~7Eは不正アクセスである。これはおそらく、こわれたロボットプログラムではないかと思われる。
12月12日に複数のサイトから、
"GET /default.ida? NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN NNNNNNNNNNNNNNNNN%u9090%u6858%ucbd3%u7801%u9090%u6858%ucbd3%u7801%u9090%u6858%ucbd 3%u7801%u9090%u9090%u8190%u00c3%u0003%u8b00%u531b%u53ff%u0078%u0000%u00=a HTTP/1.0"というアクセスが6件あった。(他の日もあったが6件は多い)これはウィルスCode Redからのアクセスである。
異常の通り検出した日付において、全て不正なアクセスを検出した。特にセキュリティホールへのスキャンなど、アクセス数が多くなるので、本研究における手法が有効であると考えられる。