两天前,Cloudflare,一家全球领先的网络基础设施公司,开始用AI对抗AI爬虫,这简直可以载入AI发展史册。
🌟 事情的起因
让我们先从一个乌克兰的小公司Triplegangers说起。这家公司只有7个人,专门卖3D数字模型。他们的网站上有65000个产品页面,每个页面都有高清照片和详细描述。然而,就在今年1月的一个普通周六早上,一场风暴打破了平静。
Triplegangers的创始人Tomchuk收到了一条紧急通知:公司网站崩溃了。经过调查,他发现是OpenAI的爬虫机器人GPTBot在疯狂爬取网站数据。这些爬虫使用了600个IP地址,导致服务器瞬间瘫痪。更糟糕的是,由于服务器压力暴涨,公司还面临巨额的AWS账单。
🔍 问题的根源
Triplegangers原本禁止爬虫未经许可抓取数据,但因为没有严格配置robot.txt文件,等于默认允许了OpenAI的抓取行为。几天后,Tomchuk终于设置好了robot.txt文件,并启用了Cloudflare服务来屏蔽更多爬虫。
📈 不只是Triplegangers
类似的事件也发生在其他公司。比如iFixit,一个老牌维修教程网站,被Anthropic公司的爬虫ClaudeBot疯狂访问,差点把网站挤爆。尽管iFixit明确禁止未经许可抓取内容用于AI训练,但ClaudeBot依然我行我素。
🤔 robots协议的尴尬
robots协议是一个君子协定,网站管理员可以在robots.txt文件中告诉爬虫哪些地方不能爬。长期以来,大多数搜索引擎都遵守这个协议。然而,现在许多AI爬虫为了获取数据,无视这一协议,即使网站明确禁止,他们仍然会强行爬取。
🛡️ Cloudflare的反击
在这种背景下,Cloudflare决定用AI对抗AI。他们为AI爬虫制造了一个迷宫,所有页面、链接和内容都是AI生成的虚假信息。这些迷宫对正常用户是隐形的,但AI爬虫会被引诱进去,白白浪费计算资源。
🏆 省心锐评
当大模型训练变成"数据零元购",Cloudflare的AI反制证明——魔法只能用魔法打败