Anthropic 推出新功能计算机使用,Claude 3.5 Sonnet 模型升级表现出色
昨日,由多位前 员工建立的 AI 初创公司 对外推出了一项引人注目的新功能,名为“计算机使用”。这项功能让大模型理解一切桌面应用程序并与之交互,包括模拟按键、点击按钮、鼠标手势和输入文本等,在计算机操作能力上已经与人类基本相当。
换句话说, 不是为单个任务开发定制工具,而是教授模型基本计算机技能,使其能够自然地使用与人们相同的日常软件和工具。
升级后的 3.5 是第一个在公开测试版中提供“计算机使用”功能的模型,此番 对这套模型进行了全面改进,特别是在智能体编码与工具使用等任务场景下表现出色。AI 驱动图像初创公司 的创始人 发帖表示, 3.5 是“世界上最好的编码模型,将它纳入日常工作流程,彻底改变了我的生活体验。”
与此同时, 还发布了全新的 3.5 Haiku,成本和速度向最小体量系统看齐,但能够重现该公司最大体量系统的性能。据介绍, 3.5 Haiku 的价格将与 3 Haiku 保持一致,但在多项重要基准测试当中都有着超越更大体量 3 Opus 模型的性能表现,其中包括一项由模型完成客服任务的测试。
方面表示, 3.5 Haiku“在编码任务领域表现特别强劲”,同时也“非常适合支持面向用户的产品、特定子智能体任务,以及根据大量数据(包括购买历史、定价或者库存记录等)生成个性化体验等。”
现在,开发者们可以通过 的 API、 以及 Cloud 的 AI 平台体验升级后的 3.5 。而 3.5 Haiku 将于本月晚些时候提供,最初作为纯文本模型,随后将提供图像输入。
当 学会用电脑
在 官方发布的视频中,该公司研究人员展示了新 模型如何通过计算机使用功能从不同来源处收集信息,进而填写表格、开发网站甚至是策划徒步旅行。
有网友表示为 捏了把汗。当然,这项新功能也有局限性。一篇关于该工具的开发博文就列举了一个测试失败的案例:它在执行编码任务的过程中半途放弃,转而开始“浏览黄石国家公园的照片”——开玩笑讲,这可能是 AI 机器人做过的最像人类的事情之一,甚至学会了拖延症。
在一项旨在测试 AI 机器人帮助完成机票操作任务(例如修改出行航班)的能力评估当中,新版 3.5 只成功完成了不到半数任务。而在另一项涉及申请退货等操作任务的测试中,3.5 的失败率同样接近三分之一。
对此, 方面承认,升级之后的 3.5 在滚动和缩放等常见操作方面仍存在困难,它需要通过快速连续截屏来实现操作,而无法处理实时视频流,因此可能会错过短暂的通知或者其他变更。 在博文中写道,“ 模型的'计算机使用'功能用起来仍然比较麻烦而且容易出错。我们鼓励开发人员从风险较低的任务开始进行探索。”
方面称,这项计算机使用功能仍处于实验阶段,他们正在对“计算机使用”功能进行测试,排查可能出现的问题,同时与开发人员合作改进功能以寻求积极的技术应用方式。目前,参与这项计算机使用功能试点的企业客户包括 Asana、Canva、、、 以及 The 。
据悉,软件开发平台 已经使用全新 3.5 模型的早期版本来创建“自主验证器”,用以在应用程序开发过程中对项目进行评估。在另一边,Canva 公司则表示正在探索利用这套新模型支持设计和编辑流程的可行方法。
会自我纠正并重试任务, 比微软 UFO 更像人类?
计算机使用似乎正成为 AI 开发的下一个前沿领域,即 AI 模型不必通过定制工具进行交互,而是能够按照指示使用基本上任何软件。
最近被亚马逊收购的 Adept 一直在训练模型浏览网站并实现软件导航,Twin Labs 正使用现成模型(包括 的 GPT-4o)来自动执行桌面操作流程,消费电子初创公司 在开发一款能够执行在线购买电影票等操作的 Web 版智能体。有消息称, 等人工智能厂商也一直在开发类似的工具,但目前尚未公开发布。
今年 2 月,微软基于 的 GPT-4V 图像识别模型,专为 操作系统交互设计的智能体框架 UFO(UI-)更与其有“异曲同工”之妙。UFO 能够通过对图形用户界面(GUI)和 应用程序的控制信息进行观察和分析,在单个或跨多个应用程序内无缝导航和操作,满足用户的复杂任务请求。也就是说,有了 UFO,用户通过一句话就可以操作应用界面,比如删除 PPT 上的所有注释、设计 PPT 格式、总结会议纪要并发送邮件等。
那么, 的方案与其他操控应用的 AI 智能体有何不同?
工作原理上,据 介绍,其“计算机使用”功能虽然同样需观看和解读屏幕截图,但实现操作是通过训练 模型准确计算像素。具体来讲,当开发人员要求 使用计算机软件并授予其必要的访问权限时, 模型会查看用户界面中的屏幕截图,而后计算出需要垂直或者水平移动多少像素才能将光标移动至正确位置。如果没有这种能力,模型将很难对鼠标进行准确操作。
而微软 UFO 是通过应用程序选择代理 () 和动作选择代理 () 两个 Agent 来实现自动化工作。 负责通过分析用户请求和桌面屏幕截图,选择合适的应用程序,并制定全局计划来完成任务。而 则负责观察当前应用程序窗口的截图,从可用控制中选取合适的控制并执行动作,最后由控制交互模块负责将 选择的动作转换为对应用程序的控制操作。
此外, 方面宣称,尽管没有接受过明确训练,但升级之后的 3.5 还会在遇到障碍时自我纠正并重试任务,而且正向着执行包含数十甚至数百个步骤的复杂任务目标推进。并且, 的“计算机使用”功能还涉及到模型推理,像如何以及何时执行特定操作以响应屏幕上内容等。
AI 操控电脑存在风险? :注意数据隔离
自动化控制应用工具这条赛道已经掀起新一轮 AI 竞赛浪潮,如果这些工具按预期发展成熟,很可能在几年之后为厂商带来大量收入。 方面也一直在向投资者传达这一信息,即其打造的 AI 工具能够以比人类更高效且更经济的方式处理大部分办公室工作。
不过,此类工具也引发了一些争论。首先是担忧“它们只是一种能让人们工作更轻松的工具”,还是“会像一颗炸弹那样让各行各业的人们失去生存空间”。另一方面,尽管 3.5 模型在性能方面仍有不少短板,但其是否已经具备了造成危害的基本能力?
最近一项研究发现,无法使用桌面应用程序的现有模型(如 的 GPT-4o)在面对越狱技术的“攻击”时,确实愿意参与到有害的“多步骤智能体操作”中来,如从暗网上的卖家手中订购假护照。研究人员表示,即使是那些受到过滤器和护栏机制保护的模型,越狱行为同样在实施有害操作方面具有很高的成功率。
可以想象,具有桌面访问权限的模型很可能会造成更大的破坏,如利用应用程序中的漏洞泄露个人信息(或者以纯文本形式存储下聊天记录)。而除了将软件作为操作杠杆之外,模型的网络浏览与应用程序连接更可能向恶意越狱者敞开大门。
也并不否认新发布的 3.5 存在风险,但辩称,相较于潜在风险,该模型在受众中的实际使用方式明显利大于弊。该公司在博文中提到,“我们认为,让目前这套功能较为有限、相对更加安全的模型早点访问计算机可能更好。这意味着我们可以开始观察并学习这套比较初级的模型会引发哪些潜在问题,同时逐步为其建立起计算机使用功能与安全缓解措施。”
方面还表示,他们开发了分类器以“敦促”3.5 远离已知的高风险行为,例如在社交媒体上发帖、创建账户以及在政府网站上执行交互操作。作为一项安全预防措施,该公司将把“计算机使用”捕捉到的任何屏幕截图至少保留 30 天。但不会利用用户的屏幕截图和提示词训练新的 3.5 模型,同时阻止模型在训练期间访问网络。
此外, 公司强调,“选择使用 操作计算机的用户也应当采取相应预防措施,从而尽量减少此类风险,包括将 与电脑上高度敏感的数据隔离开来。”
有网友这样评价道,“两年前的 :我们需要阻止 AGI 摧毁世界。现在的 :如果我们让 AI 自由使用电脑并训练它患有多动症会怎么样?”
参考链接:
本文来自微信公众号“AI前线”,作者:华卫、核子可乐 ,36氪经授权发布。