Press ESC to close

OpenAI的聊天机器人是如何“秒杀”这家七人公司的网站,堪比一次DDoS攻击的

Triplegangers-product-page.png?w=650

上周六,Triplegangers 的 CEO Oleksandr Tomchuk 发现公司的电子商务网站无法访问。他推测这可能是分布式拒绝服务攻击。

很快,他发现罪魁祸首是一个来自 OpenAI 的机器人,它不断尝试抓取整个庞大的网站。

“我们有超过 65,000 个产品,每个产品都有一个页面,”Tomchuk 告诉 TechCrunch。“每个页面至少有三张照片。”

OpenAI 发送了成千上万的服务器请求,试图下载所有内容,包括数十万张照片及其详细的描述。

“OpenAI 使用了 600 个 IP 地址来抓取数据,我们仍在分析上周的日志记录,也许更多。”Tomchuk 说道。

“他们的爬虫几乎压垮了我们的网站,”他补充说,“这基本上就是一次 DDoS 攻击。”

Triplegangers 的网站是其业务的核心。这家拥有七名员工的公司已经花费了十多年时间建立了一个所谓的“人类数字双胞胎”数据库,即从实际人体模型扫描得到的 3D 图像文件。

他们出售这些 3D 对象文件以及各种照片——从手到头发、皮肤和全身——给 3D 艺术家、视频游戏制作人以及任何需要数字化再现真实人类特征的人。

Tomchuk 的团队位于乌克兰,在佛罗里达州坦帕市也有许可证。他们的网站上有一个服务条款页面,禁止未经授权使用其图片的机器人。然而这并没有解决问题。网站必须使用正确配置的 robot.txt 文件,并明确告诉 OpenAI 的 GPTBot 离开该站点。OpenAI 还有其他几个机器人如 ChatGPT-User 和 OAI-SearchBot,它们也有自己的标签。

Robot.txt 或称为爬虫排除协议是用于告诉搜索引擎不要爬取某些网页内容的一种机制。OpenAI 在其信息页面上表示会遵守这种文件配置,并且不会在识别更新后的 robot.txt 文件时超过 24 小时。然而,如果站点没有正确使用 robot.txt 文件,OpenAI 和其他公司会认为他们可以随意抓取数据。

更糟糕的是,在美国工作时间期间,Triplegangers 因为 OpenAI 的机器人而被敲掉了线,并且 Tomchuk 预期会因为该机器人的大量 CPU 和下载活动收到 AWS 账单。

Robot.txt 并不是万能的。人工智能公司自愿遵守它。另一个 AI 初创公司 Perplexity 在去年夏天因未遵守而被 Wired 调查曝光。

无法确切知道被拿走了什么

周三之后,在 OpenAI 的机器人返回多日后,Triplegangers 设置了一个正确配置的 robot.txt 文件,并且还设置了一个 Cloudflare 账户来阻止 GPTBot 及其他几个机器人(如 Barkrowler 和 Bytespider)。Tomchuk 希望他已阻止来自其他 AI 模型公司的爬虫。周四早上,站点没有崩溃。

然而,Tomchuk 没有合理的方法来确定 OpenAI 成功抓取了什么或如何删除这些材料。他找不到联系 OpenAI 的方式来询问此事。TechCrunch 请求评论时也没有得到回复。此外,OpenAI 迄今仍未交付其承诺已久的退出工具。

对于 Triplegangers 来说这是一个特别棘手的问题。“我们在一个权利问题非常重要的行业中经营业务,因为我们扫描实际的人类模特。”他说。“比如欧盟的 GDPR 法律规定他们不能随意在网上拍摄照片并使用它们。”

Triplegangers 的网站对 AI 爬虫来说是一个特别诱人的目标。像 Scale AI 这样的估值数十亿美元的初创公司通过让人类详细标记图像来训练 AI 模型。Triplegangers 的网站包含详细标记的照片:种族、年龄、文身与疤痕、各种体型等。

讽刺的是,正是 OpenAI 爬虫的贪婪让 Triplegangers 意识到自己有多么脆弱。“如果它能更温和地抓取数据的话,我可能永远都不会知道发生了什么。”Tomchuk 说。

总结

TechCrunch 报道了一起由 OpenAI 爬虫引发的网络攻击事件,并讨论了如何保护在线业务免受此类攻击的影响。

这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegangers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻击的重要性。
这段文章主要讲述了 Triplegammers 遭遇由 OpenAI 爬虫引发的网络攻击事件及其影响,并强调了保护在线业务免受此类攻重要性。
总结:本文详细描述了一家名为 Triplegammers 的公司在遭遇来自 AI 公司(如 OpenAI)爬虫导致的数据泄露和服务器压力问题后所采取的一系列应对措施及面临的挑战。
Fritz Gaylord

Hi, I’m Fritz Gaylord, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram