Internet Archive (archive.org)のクローラーを拒否する方法

Internet Archive(archive.org)について知っている人はあまりいません。このサイトは、過去のインターネットのサイトを未来に残すことを目的にしたサイトです。Internet Archiveと言うよりも、archive.orgと言う名称の方が知られているような気がします。

このアーカイブサイトは、独自のクローラーでインターネットを巡回し、サイトの情報を集め、集積しています。サイトが永久に残ることから、これを嫌う人は多いです。逆に言えば、永久に残すには便利なサイトです。

このサイトの特性として、検索エンジンのクローラーをrobots.txtで拒否している点が挙げられます。つまり、Internet Archiveの中身がGoogleの検索結果に出ることはありません。もしGoogleやBingの検索に出るようになったら、より多くの人がarchive.orgを拒否するでしょう。

さて、問題は、このarchive.orgのクローラーを拒否するにはどうするかです。そこでいろいろ調べたのですが、今のところ有効なのはrobots.txtと.htaccessです。metaタグによる拒否は無視されます。ひどいですね。

今後、arcihve.orgはrobots.txtを無視する可能性があります。どうやら内部的にrobots.txtを無視しようという流れができている様です。「アーカイブされるのが嫌だったら、そもそも、サイトを公開するな」という乱暴な意見が主流であるようです。だから、すでにmetaタグの方は無視しているのでしょう。

この様な情勢にあるため、今後、archive.orgを拒否したい場合は、.htaccessを利用することをお勧めします。.htaccessで拒否したら、どうあがいてもデータを取得できませんから、アーカイブをしようにもできません。

まあ、どう考えてもというのは言い過ぎですが、普通にクローラーを巡回させているのなら、データーを渡さないわけなので、アーカイブできません。直接、人間がブラウザーで見に来て、スクリーンショット取っていけばできますが、いちいちそんなことをやるとは思えません。あるいは、いつもと違うIPアドレスを使ったり、ユーザーエージェントを偽装するならできますが、そこまでするかというと、まずやらないでしょう。ばれたら世界中のサーバーから村八分にされます(笑)。

一方、robots.txtの場合、無視しようとすれば、いくらでも無視できます。これは単にクローラーの主に「来ないでください」とお願いしているにすぎないからです。実際、robots.txtを無視するクローラーなんていくらでもあります。

結局、robots.txtと言うおとなしい方法では、どうしても無理矢理クロールしたいと思っている人たちは止められません。今後、趣味のサイトなど、公開を限定的にしたい様なサイトを作る場合は、.htaccessを自分で設置できるようなサーバーを使用する様にすべきだと思います。

なお、もし図らずも、archive.orgにアーカイブされてしまった場合は、英語でメールを送れば、削除してもらえます。しかし、一度、削除の手続きを取ると、今後、アーカイブをしてもらいたいと思っても、してもらえませんので、その点だけは知っておいた方がいいです。メールを送って、アーカイブしてくれと頼んでも無視されます。まあ、連中はずいぶんいい性格をしていますよね(笑)。

クローラーに「来てください」と、はいつくばって頼んでも、クローラーが来てくれないというのは、おもしろい冗談です(笑)。

重要点をまとめます。

1.archive.orgでアーカイブされてもGoogle等の検索結果には出ません。

2.archive.orgはロボットを拒否するmetaタグを無視するので、metaタグで拒否できません。

3.今のところ、robots.txtは有効ですが、将来は無視される可能性が高いので、拒否するなら.htaccessで拒否すべきです。

以上です。

追伸(2020年10月6日):

どうやら、archive.orgはrobots.txtを無視することにしたようです。従って、archive.orgのボットを拒否する唯一の方法は、.htaccessと言うことになります。

robots.txtでarchive.orgのボットを拒否する方法

すでに無効となっている可能性が高いのですが、.htaccessが使えない人のために、一応、書いておきます。下記のディレクティブをメモ帳などで書いて、robots.txtと言うファイル名で保存し、ドメインのルートにアップロードします。

User-agent: archive.org_bot
User-agent: ia_archiver
Disallow: /

これにより達成されることは下記の二つです。

1)archive.orgに保存されている当該サイトのデータを全て削除すること。

2)以後archive.orgのボットは当該サイトをクロールしないこと。

robots.textでarchive.orgのボットを許可する方法

逆に許可したい場合は、こう書きます。「Disallow:」の後に、スラッシュがないだけです。

User-agent: archive.org_bot
User-agent: ia_archiver
Disallow: 

実際には、これだけを書いて、robots.txtを配置する意味はありません。

使うとすると、他のボットは全部拒否して、archive.orgのボットだけを許可すると言う場合です。その場合は、こうなります。

User-agent: archive.org_bot
User-agent: ia_archiver
Disallow: 

User-agent: *
Disallow: /

.htaccessでarchive.orgのボットを拒否する方法

.htaccessで拒否するのなら、こうなります。下記ディレクティブをメモ帳で書いて、htaccess.txtとして保存し、サーバーのルートに転送します。そして、ファイル名を「htaccess.txt」から「.htaccess」(ドットの前に何もないファイル名です。)に変更します。特定のディレクトリー(フォルダー)だけ拒否したければ、そこに転送するだけです。これからはこの方法でなければ、確実にarchive.orgのボットを拒否できません。

SetEnvIf User-Agent "archive.org_bot" shutout_ua
SetEnvIf User-Agent "ia_archiver" shutout_ua

order allow,deny

allow from all

deny from env=shutout_ua

なぜこの方法が確実かというと、ia_archiveと言うUser-Agentのボットが来た場合にサーバーがデータを渡さないからです。こうすれば、archive.orgのボットが他のUser-Agentを名乗るなど、偽装しない限り、データを入手できないので、サイトのデータを集められません。

.htaccessでarchive.orgのボットを許可する方法

何も書かなければ、許可することになります。

archive.orgがrobots.txtを無視するようになった証拠

あいにく確証はありませんが、昔、archive.orgのボットを拒否する方法について説明していたページを削除したのがその証拠と言えるかもしれません。それは下記のページです。

Removing Documents From the Wayback Machine
URL: https://archive.org/about/exclude.php

どうやら2015年11月に削除したようです。最後のスクリーンショットはこれです。

そして、robots.txtを無視する方針を示した彼らのブログ記事も見つかりました。これです。

Robots.txt meant for search engines don’t work well for web archives

しかも、ia_archiverをずっと使っていながら、2010年8月頃からはarchive.org_botも同時に使っているようです。

それぞれの日付を考えると、かなり意図的です。

1)2010年、まず、密かにUser-Agentを複数使い始める。

2)2015年11月、robots.txtで拒否する方法を案内するのをやめる。

3)2017年4月 ブログでrobots.txtを無視する方針を表明する。

2010年から2015年の間はia_archiverとarchive.org_botの二つのUser-Agentを使っていることになりますが、その後はどうしたのでしょうか?そもそも、なぜUser-Agentを変更する必要があったのでしょうか?こっそりサイトのスクリーンショットを取得しようとしているようにしか見えませんね。