Internet Archive (archive.org)のクローラーを拒否する方法

Internet Archive(archive.org)について知っている人はあまりいません。このサイトは、過去のインターネットのサイトを未来に残すことを目的にしたサイトです。Internet Archiveと言うよりも、archive.orgと言う名称の方が知られているような気がします。

このアーカイブサイトは、独自のクローラーでインターネットを巡回し、サイトの情報を集め、集積しています。サイトが永久に残ることから、これを嫌う人は多いです。逆に言えば、永久に残すには便利なサイトです。

このサイトの特性として、検索エンジンのクローラーをrobots.txtで拒否している点が挙げられます。つまり、Internet Archiveの中身がGoogleの検索結果に出ることはありません。もしGoogleやBingの検索に出るようになったら、より多くの人がarchive.orgを拒否するでしょう。

さて、問題は、このarchive.orgのクローラーを拒否するにはどうするかです。そこでいろいろ調べたのですが、今のところ有効なのはrobots.txtと.htaccessです。metaタグによる拒否は無視されます。ひどいですね。

今後、arcihve.orgはrobots.txtを無視する可能性があります。どうやら内部的にrobots.txtを無視しようという流れができている様です。「アーカイブされるのが嫌だったら、そもそも、サイトを公開するな」という乱暴な意見が主流であるようです。だから、すでにmetaタグの方は無視しているのでしょう。

この様な情勢にあるため、今後、archive.orgを拒否したい場合は、.htaccessを利用することをお勧めします。.htaccessで拒否したら、どうあがいてもデータを取得できませんから、アーカイブをしようにもできません。

まあ、どう考えてもというのは言い過ぎですが、普通にクローラーを巡回させているのなら、データーを渡さないわけなので、アーカイブできません。直接、人間がブラウザーで見に来て、スクリーンショット取っていけばできますが、いちいちそんなことをやるとは思えません。あるいは、いつもと違うIPアドレスを使ったり、ユーザーエージェントを偽装するならできますが、そこまでするかというと、まずやらないでしょう。ばれたら世界中のサーバーから村八分にされます(笑)。

一方、robots.txtの場合、無視しようとすれば、いくらでも無視できます。これは単にクローラーの主に「来ないでください」とお願いしているにすぎないからです。実際、robots.txtを無視するクローラーなんていくらでもあります。

結局、robots.txtと言うおとなしい方法では、どうしても無理矢理クロールしたいと思っている人たちは止められません。今後、趣味のサイトなど、公開を限定的にしたい様なサイトを作る場合は、.htaccessを自分で設置できるようなサーバーを使用する様にすべきだと思います。

なお、もし図らずも、archive.orgにアーカイブされてしまった場合は、英語でメールを送れば、削除してもらえます。しかし、一度、削除の手続きを取ると、今後、アーカイブをしてもらいたいと思っても、してもらえませんので、その点だけは知っておいた方がいいです。メールを送って、アーカイブしてくれと頼んでも無視されます。まあ、連中はずいぶんいい性格をしていますよね(笑)。

クローラーに「来てください」と、はいつくばって頼んでも、クローラーが来てくれないというのは、おもしろい冗談です(笑)。

重要点をまとめます。

1.archive.orgでアーカイブされてもGoogle等の検索結果には出ません。

2.archive.orgはロボットを拒否するmetaタグを無視するので、metaタグで拒否できません。

3.今のところ、robots.txtは有効ですが、将来は無視される可能性が高いので、拒否するなら.htaccessで拒否すべきです。

以上です。