前回の記事で Yahoo! Slurp さんのアクセスが激しすぎることを書きましたが、よく考えてみると心当たりがないわけではありません。
実は昨夜ちょと SEO 的な発想でここの検索結果の URL を修正したりしています。
例えば「坂本真綾」さんの検索結果なら http://hansel.xtr.jp/…/%E5%9D%82%E6%9C%AC%E7%9C%9F%E7%B6%BE.htm といった感じです。
いあ、単に mod_rewrite ってもしかしてこんなことにも使えるかな~と試してみただけなんですが(笑)
実は多くの検索エンジンって引数付きの URL の先をあまり辿ってくれません。
逆に mod_rewrite で上記のようないたずらをすると、その先も結構キャッシュしてくれるようになります。
でも、他の検索ロボットさんたちはちゃんと節度を守ってアクセスしてくれるので、全然問題ないんです。
ただ Yahoo のロボットさんってばもう遠慮ってものがないらしく、リンクがある限りこれでもかこれでもか! とほとんど休まずアクセスを続けるようです(^^;
それで何かいい方法はないかな? と Google したですが、どうも適切なキーワードが浮かばなくてうまく見つかりません。
で、ものは試しと Yahoo のロボットさんが HTTP_USER_AGENT の中に残してくれた http://help.yahoo.com/help/us/ysearch/slurp へ行ってみることにしました。
ビンゴ! です。
えっと英語なのですが、Yahoo の検索ロボットさんの FAQ ページみたいなところです。
で、問題の質問がこれ。
How can I reduce the number of requests you make on my web site?
(ウチのサイトにがしがしアクセスするのを控えてほしいんですけど、どうしたらいいですか?)
で、それに対する回答はというと、大雑把に言って、
Setting a crawl-delay of 20 seconds for Yahoo! Slurp would look something like:
(検索ロボットのアクセス間隔を最低 20秒あけるには(robots.txt に)このように記述してください。)
User-agent: Slurp Crawl-delay: 20
といった感じです。
試しに「Crawl-delay」をキーワードに再び Google してみましたが、情報とても少ないです。
それでも「SEO塾」さんのこの記事などが参考になりました。
で、ここではちょっと控えめに 5秒で試してみたのですが、Yahoo! Slurp さんの来訪が劇的に減りました(^^)/
いあ、なんかすっかり嫌われちゃったのか、数分に 1回しか来なくなりましたけど(^^;
まあ、でも、とりあえず解決…かな?

