如何阻挡 OpenAI ChatGPT 抓取或使用你的网站内容？

首页 » 软件 » 如何阻挡 OpenAI ChatGPT 抓取或使用你的网站内容？

OpenAI 旗下的人工智能聊天机器人 ChatGPT 使用大量数据进行训练，当中也包含了大量网络上的信息，简单来说，如果你有在网络撰写内容（例如部落客），那么内容有相当大的机会已被拿去作为 ChatGPT 语言模型训练（虽然 OpenAI 只有表示会用来改进系统），OpenAI 使用的网络爬虫命名为「GPTBot」，会抓取网页用以改进未来的模型，不过也会排除需要付费浏览的内容、个人信息或违反 OpenAI 政策的内容来源。

那么要如何阻挡 ChatGPT 爬虫来抓取你的网站内容呢？官方提供的说明文件也有如何阻止 GPTBot 访问网站的配置方式，如同其他网络爬虫，GPTBot 遵循 robots.txt（一个用于告诉网络爬虫网站的哪些内容不应该被取得的文字档案），只要进行设定即可将 ChatGPT 爬虫排除在外，告诉它们不要访问网站或特定路径。

前段时间 ChatGPT 推出外挂（Plugins），有些功能也会对特定网址进行抓取、爬行，使用的网络爬虫名称为「ChatGPT-User」，一样可以禁止外挂功能存取网站，差别在于 GPTBot 会自动去爬取网站，后者则是代表用户采取的直接操作。

除此之外，OpenAI还提供 GPTBot 和 ChatGPT-User 爬虫使用的网络网段信息（IP egress ranges），必要时还能直接阻挡这些 IP 地址进入网站。

接下来就介绍一下ChatGPT爬虫使用的User-Agent信息，若不想让ChatGPT或它的外挂功能访问网站相关内容，可以在robots.txt加入一些设置即可排除。

设定教学

依照 OpenAI 说明文件所述，他们的网页爬虫用户代理（User-agent）和字符串分别如下：

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

允许让 GPTBot 访问你的网站有助于使 AI 模型变得更加精确，也有助于提高 AI 整体功能和安全性，若用户不希望网站被 GPTBot 浏览，也可设定禁止网络爬虫访问整个网站或特定路径。

禁止 GPTBot 访问你的网站（将以下内容加入 robots.txt）：

User-agent: GPTBot
Disallow: /

自定义 GPTBot 可访问的路径：

User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

除此之外，OpenAI还公布GPTBot使用的网络网段，这也表示用户可透过 .htaccess 或其他方式阻挡这些IP 地址来防止ChatGPT存取网站内容，但要注意的是网段可能会随着时间而更新或是变化，必须要经常确认取得最新的IP 地址网段。

GPTBot 使用的网络网段（链接）：

20.15.240.64/28
20.15.240.80/28
20.15.240.96/28
20.15.240.176/28
20.15.241.0/28
20.15.242.128/28
20.15.242.144/28
20.15.242.192/28
40.83.2.64/28

阻挡 ChatGPT 外挂访问你的网站

前面提到的是ChatGPT使用的网络爬虫GPTBot，对于用户在ChatGPT使用的外挂（Plugins）则有另外一个网络爬虫「ChatGPT-User」进行处理，两者不太一样，依照说明文件ChatGPT-User代表用户采取的直接操作，不会以任何方式自动化去爬行网站内容。

ChatGPT-User 的用户代理和字符串分别如下：

User agent token: ChatGPT-User
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; ChatGPT-User/1.0; +https://openai.com/bot

如果你想允许 ChatGPT 插件访问你的网站，可以将 ChatGPT-User 加入 robots.txt：

User-agent: ChatGPT-User
Disallow:

仅允许 ChatGPT 插件访问特定路径：

User-agent: ChatGPT-User
Disallow:
Allow: /directory-1/
Allow: /directory-2/

完全禁止 ChatGPT 外挂访问你的网站：

User-agent: ChatGPT-User
Disallow: /

另外，OpenAI 网页浏览插件的网段。23.98.142.176/28

值得一试的三个理由：

网站所有者希望保护其内容隐私、不希望被 ChatGPT 爬虫抓取可自行阻挡设定
了解如何有效地阻止 ChatGPT 爬虫可以确保网站不被误用或侵犯政策
介绍多种阻挡ChatGPT访问网站的方法，使用robots.txt或封锁特定IP网段

有个狸

最有趣的文章、奥秘和发现

如何阻挡 OpenAI ChatGPT 抓取或使用你的网站内容？

设定教学

阻挡 ChatGPT 外挂访问你的网站

发表回复取消回复

设定教学

阻挡 ChatGPT 外挂访问你的网站

相关文章

发表回复 取消回复

发表回复取消回复