虽然用户喜欢 ChatGPT 目前拥有的丰富信息,但网站所有者却不能这么说。
OpenAI 的 ChatGPT 使用爬虫来爬行网站,但如果您是网站所有者并且不希望 OpenAI 的爬虫访问您的网站,您可以采取以下一些措施来避免它。
OpenAI爬虫的工作原理是什么?
网络爬虫(也称为蜘蛛或搜索引擎机器人)是一种扫描互联网以获取信息的手动程序。 然后,它将这些信息编译为搜索引擎可以轻松访问的形式。
网络爬虫会对与您的搜索查询更相关的每个 URL 的每个页面进行索引搜索引擎主题网站模板,通常会优先考虑与您的搜索查询更相关的网站。 例如,假设您在 Microsoft 中搜索特定的 Windows 错误。 搜索引擎中的网络爬虫将扫描它认为在 Windows 错误主题上更权威的任何网站的所有 URL。
OpenAI 的网络爬虫称为 GPTBot。 根据OpenAI的文档,允许GPTBot访问你的网站可以帮助训练AI模型,使其显得更安全、更准确,甚至可以扩展AI模型的能力。
如何阻止 OpenAI 抓取您的网站
与大多数其他网络爬虫一样,可以通过更改网站的 robots.txt 合同(通常称为机器人排除合同)来阻止 GPTBot 访问您的网站。 此 .txt 文件托管在网站的服务器上,控制网络爬虫和网站上其他手动进程的行为。
下面是 robots.txt 文件可以执行的一些操作的简短列表:
以下是控制 GPTBot 在您的网站上可以执行的操作的方法:
完全阻止 GPTBot 访问您的网站
设置 robots.txt 文件,然后使用任何文本编辑工具对其进行编辑。
将 GPTBot 添加到您网站的 robots.txt,如下所示:
阻止 GPTBot 仅访问单个页面
设置 robots.txt 文件搜索引擎主题网站模板,然后使用您喜欢的文本编辑工具对其进行编辑。
将 GPTBot 添加到您网站的 robots.txt,如下所示:
User-agent: GPTBot Allow: /directory-1/ Disallow: /directory-2/
但是,请记住,修改 robots.txt 文件并不是来源解决方案,GPTBot 之前可能从您的站点收集的任何信息都将难以恢复。
OpenAI 让网站所有者选择不抓取
自从使用爬虫来训练人工智能模型以来,网站所有者仍在寻找保持数据私密性的方法。
一些人担心人工智能模型几乎放弃了他们的工作,甚至可能归因于当今信息访问的减少,用户无需访问其网站即可获取信息。
总而言之,您是否想要阻止人工智能聊天机器人扫描您的网站完全取决于您。