ChatGPTのクローラーを拒否する方法
ChatGPTの学習に自分のサイトを利用させたくないサイトオーナーも多いのではないでしょうか。本記事ではChatGPTのクローラーであるGPTBotを拒否する方法を解説します。
robots.txt にクローリング拒否を記載する
GPTBotのクローリングを拒否する方法は、ChatGPTの開発元であるOpenAI社の公式サイトに記載されています。
robots.txt を次のように記載することで GPTBotのクローリングを拒否できます。
User-agent に GPTBot を指定して全ディレクトリへのアクセスを拒否しています。
次の例ではdirectory-1 直下は拒否せず、directory-2 は拒否しています。
IP アドレスによる拒否も可能
robots.txt の記載以外にも IP アドレスによる拒否も公式サイトに記載されています。
過去に学習されたデータは拒否できない
OpenAI 社は 2023 年 8 月に GPTBot に関する情報を公開しましたが、それ以前にトレーニングされていた内容は遡って拒否できないようです。
膨大なデータを学習しているので、どのデータがどこのものか当人たちも把握しきれてないのでは..
海外の主要メディアは拒否の傾向
New York Times や CNN、ロイターなど主要な海外メディアは GPTBot は拒否するようです。国内メディアもこの流れに追従するものと予想されます。
Google Bard のクローラー対策は未発表
一方で同じようなサービスを展開する Google Bard の学習 Bot への対策は発表されていません。OpenAI社が対応を見せたことでGoogleも何らかのアクションを起こしそうですが。
こちら情報が更新され次第、紹介したいと思います。
XではAIの最新ニュースやプロンプト、活用アイデアを発信しています。フォローよろしくお願いします!(@robothink_jp)
無料で学べるAIスキル、ロボシンク
ロボシンクは4,000名超が学ぶAI学習サービス。無料のコースで生成AIを学べます。AIの学習を開始しましょう🚀