企业越来越多地采取措施阻止人工智能(AI)网络爬虫和蜘蛛,这些爬虫正在逐个抓取网页内容,影响网站的性能,根据行业高管和专家的说法。
AI爬虫是计算机程序,用于从网站收集数据以训练大型语言模型。
随着AI搜索使用量的增加和对训练数据的需求,互联网上出现了许多新的网络爬虫,如Bytespider、PerplexityBot、ClaudeBot和GPTBot。直到2022年,互联网上还有遵循伦理内容抓取原则的传统搜索引擎爬虫,如GoogleBot、AppleBot和BingBot。另一方面,这些激进的AI机器人不仅违反了内容指南,还降低了网站性能,增加了运营成本,并带来了安全威胁。
许多网站和内容门户正在实施反抓取措施或机器人限制技术来应对这一问题。据领先的CDN提供商Cloudflare称,80%的AI机器人访问的前10个互联网域名中,近40%已经转向阻止AI爬虫。印度顶尖科技机构Nasscom表示,这些爬虫对使用未署名内容的新闻出版商尤其有害。
“如果使用受版权保护的数据进行AI模型训练是否构成合理使用尚存争议。”Nasscom负责任的人工智能负责人Raj Shekhar在接受ET采访时说,“ANI Media与OpenAI之间的法律纠纷是提醒人工智能开发者在收集训练数据时要遵守知识产权法的警钟。因此,开发者必须谨慎行事,并咨询知识产权专家以确保合规的数据实践并避免潜在责任。”Akamai Technologies安全技术与战略总监Reuben Koh表示:“抓取会带来显著的额外负担并影响网站性能。
这通过频繁地与网站互动并尝试抓取所有内容来实现。这会导致性能惩罚。”Cloudflare对前10,000个互联网域名的分析显示,有三种AI机器人访问了最多的网站——由TikTok(中国)运营的Bytespider(40.40%)、由OpenAI运营的GPTBot(35.46%)和由Anthropic运营的ClaudeBot(11.17%)。
尽管这些AI机器人遵循规则,但Cloudflare客户普遍选择阻止它们。与此同时,Common Crawl开发了CCBot来抓取网络并创建一个开源数据集供任何人使用。
人工智能爬虫的独特之处
人工智能爬虫不同于传统爬虫——它们瞄准高质量的文字、图片和视频以增强训练数据集。
Akamai Technologies的Koh表示,“传统搜索引擎爬虫只是抓取、收集数据然后停止。”“它们不仅用于数据选择,还用于数据分类和优先级排序。这意味着即使它们抓取、索引和抓取所有数据后,也能处理这些数据将被用于什么目的。”传统网络抓取机器人遵循robots.txt协议作为指导原则以确定哪些可以索引。
传统搜索引擎机器人如GoogleBot和BingBot遵循这一原则并避开知识产权问题。然而,人工智能机器人在多个实例中被发现违反了robots.txt原则。Koh指出,“谷歌和必应不会使网站不堪重负因为它们遵循可预测且透明的索引计划。
例如,谷歌明确说明它多久索引一次特定域,允许公司预测并管理潜在的影响。”“相比之下,新的更具侵略性的爬虫没有固定的计划,并且其抓取活动可能更加密集。”Koh警告说还存在第三类恶意性质的爬虫会滥用数据进行欺诈活动。
据Akamai《互联网状况》研究显示,在所有互联网流量中超过40%来自机器人流量,并且其中约65%来自恶意机器人流量。无法全部阻止它们
专家表示,在人工智能搜索成为新的搜索实践时无法完全消除人工智能爬虫并不是最终解决方案因为网站需要被发现。
如果要出现在商业搜索引擎结果中并获得客户发现,则需要这样做。Koh认为,“如果我们在阻止合法收入生成的爬行活动或机器人活动时感到担忧怎么办?我们是否允许太多恶意活动发生在我们的网站上?这是一个非常微妙的平衡点。
”他们需要理解这一点。