AI 公司 Anthropic 被指过度抓取网站数据，引发行业争议

aixo 2024-08-01 08:16:09

2024-08-01 08:16:09

IT之家 7 月 31 日消息，金融时报(FT)发布博文，指出 AI 公司虽然声称“要负责任地开发 AI”，但通过机器人过度抓取网站数据，用于训练大语言模型。

尽管使用网络爬虫抓取数据是人工智能行业普遍做法，但因其激进程度而受到批评。

自由职业者网站也表示，在四小时内访问了 350 万次，被迫对其进行屏蔽。批评者指出，无视网站的 .txt 协议，强行获取数据，与其宣称的“负责任的 AI”理念相悖。

维修团队首席执行官 Kyle Wiens 于 7 月 24 日发布推文，IT之家翻译如下：

@，我知道你渴望获取数据，且模型也非常聪明，但真的有必要 24 小时内访问我们的服务器 100 万次吗?

这些流量没有向我们付费，且占用了我们开发资源，这真的不太厚道。

我们的服务条款中已经明确禁止通过这种方式使用我们的内容，但你悄悄 @ 是怎么做的。

如果 @ 想要就我们内容的商业使用许可进行交流，我们愿意沟通。

Anthropic