ChatGPTのクローラーを拒否する方法

ChatGPTの学習に自分のサイトを利用させたくないサイトオーナーも多いのではないでしょうか。本記事ではChatGPTのクローラーであるGPTBotを拒否する方法を解説します。

robots.txt にクローリング拒否を記載する

GPTBotのクローリングを拒否する方法は、ChatGPTの開発元であるOpenAI社の公式サイトに記載されています。

robots.txt を次のように記載することで GPTBotのクローリングを拒否できます。

robots.txt

User-agent: GPTBot
Disallow: /

User-agent に GPTBot を指定して全ディレクトリへのアクセスを拒否しています。

次の例ではdirectory-1 直下は拒否せず、directory-2 は拒否しています。

robots.txt

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

robots.txt の記載以外にも IP アドレスによる拒否も公式サイトに記載されています。

15.240.64/28
15.240.80/28
15.240.96/28
15.240.176/28
15.241.0/28
15.242.128/28
15.242.144/28
15.242.192/28
83.2.64/28

OpenAI 社は 2023 年 8 月に GPTBot に関する情報を公開しましたが、それ以前にトレーニングされていた内容は遡って拒否できないようです。

膨大なデータを学習しているので、どのデータがどこのものか当人たちも把握しきれてないのでは..

New York Times や CNN、ロイターなど主要な海外メディアは GPTBot は拒否するようです。国内メディアもこの流れに追従するものと予想されます。

一方で同じようなサービスを展開する Google Bard の学習 Bot への対策は発表されていません。OpenAI社が対応を見せたことでGoogleも何らかのアクションを起こしそうですが。

こちら情報が更新され次第、紹介したいと思います。

XではAIの最新ニュースやプロンプト、活用アイデアを発信しています。フォローよろしくお願いします！(@robothink_jp)

ロボシンクは4,000名超が学ぶAI学習サービス。無料のコースで生成AIを学べます。AIの学習を開始しましょう🚀