web serverの移行(その9)Microsoftのクローラーを排除したい

errorやwarningが無いかと、apacheのログを見ていて気が付いた。
MicrosoftのBotが入ってきている。

序でに、どんなipが多いか調べてみた。(ま、クローラだろうけど)

比較的多い(50以上のアクセスとか無茶苦茶多い)ところをホスト名と件数を表示する。
ここでGetHostByAddrの引数がよく判らなかった。
stringみたいなので”192.168.0.1″とかで良いんじゃね?……が違う。幾つか見て回ったところでは、「それでいい」となっていたのだが。
ここでpackとか出てくるんだけど、入力するは4bytesの16真数みたいだね。因みにAF_INETはuse Socket内で定義されていると思われる。値は2だそうだ。(ここに2を直接入れているサイトもあった)
その前にinet_aton()なんてのがあたりかと見当違いをしていたのは秘密だ。

そこで、やっぱり多かったのはGoogle。これはSit Kitとか入れてるし、Botも「どうぞお入りください」にしているから問題ない。
問題はMSN系のBotである。

robot.txtで

と弾いているのにも関わらず侵入してくる。roboto.txt無視するなら、こちらからも排除するしかない。
なので、
.htaccessに

と、「入っちゃいやん」にしておいた。今後とも見つけたら弾いてやる。もしもこの範囲に入っちゃったらゴメンなさい。msn.comって幾つものadressからクロールするから纏めて外したんよ。(ま、その人コレ見られんがな〜)
それと、ホスト名が引けないipも幾つかあった。これも排除の対象とする。
私のサイトは、見てくれる人が居なくなってもいいんだ(涙)

検索エンジンはGoogle先生だけでええねん。

コメントを残す