OpenAI 旗下的人工智能聊天机器人 ChatGPT 使用大量数据进行训练,当中也包含了大量网络上的信息,简单来说,如果你有在网络撰写内容(例如部落客),那么内容有相当大的机会已被拿去作为 ChatGPT 语言模型训练(虽然 OpenAI 只有表示会用来改进系统),OpenAI 使用的网络爬虫命名为「GPTBot」,会抓取网页用以改进未来的模型,不过也会排除需要付费浏览的内容、个人信息或违反 OpenAI 政策的内容来源。
那么要如何阻挡 ChatGPT 爬虫来抓取你的网站内容呢? 官方提供的说明文件也有如何阻止 GPTBot 访问网站的配置方式,如同其他网络爬虫,GPTBot 遵循 robots.txt(一个用于告诉网络爬虫网站的哪些内容不应该被取得的文字档案),只要进行设定即可将 ChatGPT 爬虫排除在外,告诉它们不要访问网站或特定路径。
前段时间 ChatGPT 推出外挂(Plugins),有些功能也会对特定网址进行抓取、爬行,使用的网络爬虫名称为「ChatGPT-User」,一样可以禁止外挂功能存取网站,差别在于 GPTBot 会自动去爬取网站,后者则是代表用户采取的直接操作。
除此之外,OpenAI还提供 GPTBot 和 ChatGPT-User 爬虫使用的网络网段信息(IP egress ranges),必要时还能直接阻挡这些 IP 地址进入网站。
接下来就介绍一下ChatGPT爬虫使用的User-Agent信息,若不想让ChatGPT或它的外挂功能访问网站相关内容,可以在robots.txt加入一些设置即可排除。
设定教学
依照 OpenAI 说明文件所述,他们的网页爬虫用户代理(User-agent)和字符串分别如下:
User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)
允许让 GPTBot 访问你的网站有助于使 AI 模型变得更加精确,也有助于提高 AI 整体功能和安全性,若用户不希望网站被 GPTBot 浏览,也可设定禁止网络爬虫访问整个网站或特定路径。
禁止 GPTBot 访问你的网站(将以下内容加入 robots.txt):
User-agent: GPTBot
Disallow: /
自定义 GPTBot 可访问的路径 :
User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/
除此之外,OpenAI还公布GPTBot使用的网络网段,这也表示用户可透过 .htaccess 或其他方式阻挡这些IP 地址来防止ChatGPT存取网站内容,但要注意的是网段可能会随着时间而更新或是变化,必须要经常确认取得最新的IP 地址网段。
GPTBot 使用的网络网段(链接):
20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28
阻挡 ChatGPT 外挂访问你的网站
前面提到的是ChatGPT使用的网络爬虫GPTBot,对于用户在ChatGPT使用的外挂(Plugins)则有另外一个网络爬虫「ChatGPT-User」进行处理,两者不太一样,依照说明文件ChatGPT-User代表用户采取的直接操作,不会以任何方式自动化去爬行网站内容。
ChatGPT-User 的用户代理和字符串分别如下:
User agent token: ChatGPT-User
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot
如果你想允许 ChatGPT 插件访问你的网站,可以将 ChatGPT-User 加入 robots.txt:
User-agent: ChatGPT-User
Disallow:
仅允许 ChatGPT 插件访问特定路径 :
User-agent: ChatGPT-User
Disallow:
Allow: /directory-1/
Allow: /directory-2/
完全禁止 ChatGPT 外挂访问你的网站:
User-agent: ChatGPT-User
Disallow: /
另外,OpenAI 网页浏览插件的网段 。23.98.142.176/28
值得一试的三个理由:
- 网站所有者希望保护其内容隐私、不希望被 ChatGPT 爬虫抓取可自行阻挡设定
- 了解如何有效地阻止 ChatGPT 爬虫可以确保网站不被误用或侵犯政策
- 介绍多种阻挡ChatGPT访问网站的方法,使用robots.txt或封锁特定IP网段