Editor profile
矢野 哲平 / 「無料で学べるAIスキル、ロボシンク」代表
更新日:

ChatGPTのクローラーを拒否する方法

ChatGPTの学習に自分のサイトを利用させたくないサイトオーナーも多いのではないでしょうか。本記事ではChatGPTのクローラーであるGPTBotを拒否する方法を解説します。

robots.txt にクローリング拒否を記載する

GPTBotのクローリングを拒否する方法は、ChatGPTの開発元であるOpenAI社の公式サイトに記載されています。

robots.txt を次のように記載することで GPTBotのクローリングを拒否できます。

robots.txt

User-agent: GPTBot
Disallow: /

User-agent に GPTBot を指定して全ディレクトリへのアクセスを拒否しています。

次の例ではdirectory-1 直下は拒否せず、directory-2 は拒否しています。

robots.txt

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

IP アドレスによる拒否も可能

robots.txt の記載以外にも IP アドレスによる拒否も公式サイトに記載されています。

IP

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

過去に学習されたデータは拒否できない

OpenAI 社は 2023 年 8 月に GPTBot に関する情報を公開しましたが、それ以前にトレーニングされていた内容は遡って拒否できないようです。

膨大なデータを学習しているので、どのデータがどこのものか当人たちも把握しきれてないのでは..

海外の主要メディアは拒否の傾向

New York Times や CNN、ロイターなど主要な海外メディアは GPTBot は拒否するようです。国内メディアもこの流れに追従するものと予想されます。

Google Bard のクローラー対策は未発表

一方で同じようなサービスを展開する Google Bard の学習 Bot への対策は発表されていません。OpenAI社が対応を見せたことでGoogleも何らかのアクションを起こしそうですが。

こちら情報が更新され次第、紹介したいと思います。

XではAIの最新ニュースやプロンプト、活用アイデアを発信しています。フォローよろしくお願いします!(@robothink_jp)


無料で学べるAIスキル、ロボシンク

ロボシンクは4,000名超が学ぶAI学習サービス。無料のコースで生成AIを学べます。AIの学習を開始しましょう🚀

コース一覧