学术头条大模型周报:OpenAI 下一款旗舰模型 Orion 将于 12 月前发布
原创 学术头条 学术头条
大模型周报将从【企业动态】【技术前瞻】【观点】三部分,带你快速跟进大模型行业热门动态。
企业动态
下一款旗舰模型 Orion 将于 12 月前发布
计划在 12 月之前发布下一款旗舰模型 Orion。据悉,与 GPT-4o 和 o1 的发布不同,Orion 最初不会通过 广泛发布。据消息人士称, 计划首先向与其密切合作的公司授予访问权限,以便他们构建自己的产品和功能。虽然 Orion 在 内部被视为 GPT-4 的后续版本,但目前尚不清楚是否会对外称其为 GPT-5。
提出简化一致性模型 sCM
扩散模型在生成逼真图像、三维模型、音频和视频方面取得了显著进步,但它们的采样速度却很慢。日前, 提出了一种称为 sCM 的新方法,它简化了连续时间一致性模型的理论表述,能够稳定和扩展大规模数据集的训练。这种方法实现了与领先的扩散模型相当的样品质量,同时仅使用两个采样步骤,从而实现 ~50 倍的 wall-clock 时间加速。
聘请前 Uber 高管担任首席合规官
已聘请 Uber 前高管 Scott 担任其首任首席合规官,以加强这家初创公司适应全球新兴人工智能法规的能力。 此前担任 Uber 首席伦理与合规官,Uber 也曾面对复杂的监管环境。在此之前, 曾在美国司法部担任副检察长助理。
推出 AI 创意工具
推出了一个用于组织、生成、编辑和组合图像的创意工具——。用户可以上传自己的图像或在 中生成新图像,然后使用 Magic Fill 和 工具无缝编辑、扩展或组合。 非常适合图形设计,提供高级文本渲染和精确的 ,通过灵活的迭代过程将愿景变为现实。
AI 推出开源视频生成模型
AI 推出了开源视频生成模型 ,其可将简单的文本提示以每秒 15 帧和 720p 分辨率生成高质量的 6 秒视频,高效地创建人物细节特写、动物在各种环境中的动作等各种电影主题。
Genmo 推出开源视频生成模型 Mochi 1
Genmo 推出了一款开源 SOTA 视频生成模型 Mochi 1 ,其在运动质量方面表现出显着改善,并且具有极强的 ,极大地缩小了闭源和开源视频生成系统之间的差距。Mochi 1 根据 2.0 许可证获得许可,可免费用于个人和商业用途。
推出 Act-One
推出了 Act-One,这是一款用于在 Gen-3 Alpha 中生成富有表现力的角色表演的新工具。Act-One 可以使用视频和语音表演作为输入来创建引人注目的动画,将生成模型用于富有表现力的实时动作和动画内容。
智谱推出情感语音模型 GLM-4-Voice
在 大会上,智谱推出了他们在多模态领域的最新成果——。据介绍,GLM-4-Voice 能够直接理解和生成中英文语音,进行实时语音对话,在情绪感知、情感共鸣、情绪表达、多语言、多方言等方面实现突破,且延时更低,可随时打断。同时,GLM-4-Voice 发布即开源,这也是智谱首个开源的端到端多模态模型。除了同步开源,GLM-4-Voice 也即刻上线清言 app,这让清言成为国内首个具有端到端高级语音(超拟人语音)能力的大模型产品。
智谱推出 :AI 的「phone use」来了
如果说「」开启了人机交互的新范式,那么「」则更进一步,解锁更多应用的可能性。在 大会上,智谱基于在语言模型、多模态模型和工具使用方面的努力和研究成果,推出了 GLM 第一个产品化的智能体(Agent)——,只需接收简单的文字/语音指令,它就可以模拟人类操作手机,进而帮你:在微信上「给老板的朋友圈点赞并写评论」,在淘宝上「购买某一款历史订单产品」,以及在携程上预订酒店、在 12306 上购买火车票、在美团上点个外卖......
:大模型可以自主使用电脑了
日前, 推出了一个公开测试的功能「 use」。据介绍,最新版本的 3.5 在通过适当的软件设置运行后,可以按照用户的指令在电脑屏幕上移动光标,点击相关位置,并通过虚拟键盘输入信息,模拟人们与电脑进行交互的方式。
推出 3.5 升级版和 3.5 Haiku
日前, 宣布推出升级版 3.5 和新模型 3.5 Haiku。升级后的 3.5 与前代产品相比有了全面的改进,尤其是在编码方面有了显著的提高。 3.5 Haiku 在许多评估中的性能与 3 Opus(他们之前最大的机型)不相上下,而成本和速度却与上一代 Haiku 相当。
能够编写和运行 代码了
为 推出了分析工具,使其能够编写和运行 代码。该工具如同内置的代码沙箱,使 可以执行复杂的数学运算、分析数据,并优化回答流程,目前在功能预览中对所有 用户开放。
Meta 推出首款轻量级量化 Llama 模型
Meta 推出了首款轻量级量化 Llama 模型,其性能足以在许多主流移动设备上运行。作为首批量化模型,这些指令微调模型在质量和安全性上保持与原始 1B 和 3B 模型相同的标准,速度提升 2-4 倍,模型大小减少 56%,内存使用降低 41%。该模型可通过 的 框架进行推理,且已在与高通和联发科等合作伙伴的协作下在 Arm CPU 上推出。
AI 推出 3.5
AI 推出了 3.5,这是他们迄今为止最强大的模型。这一开放版本包括多个模型变体,包括 3.5 Large 和 3.5 Large Turbo,以及一周后将发布的 3.5 。据介绍,这些模型的大小是高度可定制的,能在消费级硬件上运行。
推出多模态 AI 搜索模型
推出了 SOTA 多模态 AI 搜索模型 Embed 3,为图像数据释放真正的商业价值。企业现在可以建立系统,准确、快速地搜索重要的多模态资产,如复杂的报告、产品目录和设计文件,从而提高员工的工作效率。
AI 在新一轮融资中寻求约 90 亿美元的估值
据证实,AI 初创公司 AI 已启动新一轮融资谈判,寻求将其估值提高一倍以上——约 90 亿美元。 AI 的 AI 搜索引擎正试图削弱 的主导地位。近期, 深陷争议,面临着来自媒体的一系列剽窃指控,声称 “抄袭”了他们的内容, 否认了这些指控。
高通、谷歌联手帮助汽车制造商开发 AI 语音助手
日前,高通宣布与谷歌合作,为汽车制造商提供芯片和软件组合,两者共同研发的新版 OS 将适配高通芯片,支持汽车制造商开发不依赖手机的语音助手。当天,高通还推出了两款新芯片:用于仪表盘的 Elite 和支持自动驾驶的 Ride Elite,奔驰计划在未来车型中使用该芯片。
英伟达 AI 芯片的设计缺陷已修复
英伟达首席执行官黄仁勋表示,在台积电的帮助下,其最新的 AI 芯片的一个影响生产的设计缺陷已得到修复。“虽然它能正常使用,但设计缺陷导致成品率低。这 100% 是英伟达的错。”
Canva 拥有闪亮的全新文字图片生成器
Canva 在其基于 Web 的设计平台中添加了一系列新的 AI 功能,包括用于生成文本和视频效果的更新,以及文本到图像应用程序“Dream Lab”,后者允许用户从各种样式的描述中生成图像,例如“3D 渲染”和“插图”。Canva 还对“Magic”AI 工具套件进行了更新,比如提高准确性和 Magic Write 文本生成功能的一键式自动完成命令。
陷入困境,Ai Pin 已降价 200 美元
宣布将其旗舰产品 Ai Pin 降价 200 美元。据报道,这家由两名前苹果高管创立的初创公司一直在努力销售 Ai Pin。该产品于 4 月推出,起初售价 700 美元,但由于评价不佳、销售情况不佳,自 5 月份开始便考虑降价出售。据报道,截至 8 月份,Ai Pin 的退货量已开始超过销售量,市面上只剩下大约 7000 到 8000 台 Ai Pin。
荣耀发布 AI 操作系统 9.0
据《科创板日报》报道,荣耀 9.0 日前在国内发布,是行业首个搭载智能体的个人化全场景 AI 操作系统。荣耀 CEO 赵明表示,目前在大模型落地方面,不同设备采用灵活部署。其中,1500 万参数的语言大模型、500 万参数图像大模型实现全系列端侧部署,10 亿参数的多模态大模型、30 亿参数的大语言模型、4000 万参数的图像大模型在中高端系列端侧部署。
高通推骁龙 8 至尊版:将适配 GLM-4V 端侧视觉大模型
据财联社报道,高通发布的骁龙8至尊版,采用第二代定制 Oryon CPU 和增强 NPU,并宣布与智谱合作将 GLM-4V 端侧视觉大模型深度适配骁龙8至尊版。据悉,未来几周内,包括华硕、荣耀、OPPO、vivo、三星、小米和中兴等厂商将会在几周内陆续发布搭载骁龙8至尊版的终端。
波形智能确认被 OPPO 收购
此前有消息称大模型创业公司波形智能将被 OPPO 收购,波形智能相关人士已向《科创板日报》记者确认此事,并表示公司和产品均持续运营,其他不方便透露。
技术前瞻
清华、中科院、智谱团队提出
长上下文问答(LCQA)是一项具有挑战性的任务,旨在对长上下文文档进行推理,从而得出问题的准确答案。现有的用于 LCQA 的长上下文大语言模型(LLM)往往难以解决“lost in the ”的问题。检索增强生成(RAG)通过提供外部事实证据来缓解这一问题。然而,它的分块策略会破坏全局性的长上下文信息,而且其在长上下文中的低质量检索会由于大量噪音而阻碍 LLM 识别有效的事实细节。
为此,来自清华大学、中国科学院和智谱的研究团队提出了一种通用的、双视角的、鲁棒的基于 LLM 的 RAG 系统范式——,在 LCQA 任务中增强 RAG 对复杂长上下文知识(即全局信息和事实细节)的理解。
他们将 设计为即插即用范例,便于适应各种领域和 LLM。在三个多跳数据集上进行的广泛实验表明, 的性能明显优于长上下文 LLM(提高了 6.94%)、高级 RAG(提高了 6.16%)和 RAG(提高了 17.25%)。此外,他们还进行了定量消融研究和多维分析,凸显了系统组件和微调策略的有效性。
谷歌推出生成式无限游戏
来自谷歌和北卡罗来纳大学的研究团队提出了“生成式无限游戏”( game)的概念,即通过使用生成式模型,超越传统的有限、硬编码系统界限的视频游戏。
受 James P. Carse 区分有限游戏和无限游戏的启发,他们利用生成式 AI 创建了 :一款完全由生成式模型封装的角色生活模拟游戏。 从沙盘生活模拟中汲取灵感,可以让玩家在虚拟世界中通过喂养、玩耍和引导自主虚拟角色与之互动——由 LLM 生成开放式机制,其中一些机制可能是“涌现”的。
为了开发 ,他们提出了:(1)一个专门的、经过提炼的大语言模型(LLM),可实时动态生成游戏机制、叙事和角色互动;(2)一个用于视觉模型的新型动态区域图像提示适配器(IP-),可确保在多个环境中一致而灵活地生成角色的视觉效果。
他们通过定性和定量分析对系统进行了评估,结果表明,与传统的相关方法相比,该系统在角色生活模拟、用户指令遵循、叙事连贯性以及角色和环境的视觉一致性方面都有显著改进。
微软提出新型注意力机制
注意力的二次复杂度限制了 LLM 的效率和可扩展性,尤其是对于那些具有长上下文窗口的 LLM。解决这一限制的一个可行方法是利用注意力的稀疏性。然而,现有的基于稀疏性的解决方案无法完全捕捉到基于语言的任务中注意力稀疏性的动态本质。
来自微软的研究团队及其合作者认为,注意力稀疏性应该是学习出来的,而不是预先定义的。为此,他们设计了一种新的注意力机制——,它通过一个可学习的门,自适应地选择注意力地图中的重要区块,并将其余区块视为稀疏区块,从而增强了传统注意力。这种块级稀疏性有效地平衡了准确性和速度。为了高效地学习门控网络,他们开发了一种定制的 实现方法,它能以最小的开销提取块级注意力图的基本事实。 不仅适用于后期训练,而且在长期上下文微调方面表现出色。
结果表明,在后训练阶段, 明显优于基于静态或启发式的稀疏注意力 SOTA 方法,同时在适应不同上下文长度和稀疏比率方面也更加灵活多变。在使用 YaRN 进行长上下文微调时, 可以在 32k 上下文长度下达到 90% 的稀疏率,同时将困惑度损失降到最低,与 -2 相比,速度提高了 5.67 倍。
苹果提出模型更新训练策略
大语言模型(LLM)会通过定期更新来提高性能,通常是通过更改数据或架构来实现。在更新过程中,开发人员通常会优先考虑提高整体性能指标,而较少关注保持与早期模型版本的兼容性。从一个模型版本到下一个模型版本的实例级性能下降(实例回归, )会干扰用户对特定语言模型能力的心智模型。用户不得不在每次更新时调整他们的心智模型,这可能会导致不满,尤其是当新模型在已知用例中的性能与之前的版本相比有所下降时(模型更新回归,model )。
苹果团队发现,当更新预训练的 LLM 基本模型时,经过微调的面向用户的下游任务适配器会出现负翻转——以前正确的实例现在预测错误。他们观察到,即使下游任务训练程序保持一致,在不同的任务和模型集上的不同模型版本之间也会出现模型更新回归。
他们论证了在更新过程中保持模型更新兼容性的重要性,并提出了专为生成任务设计的评估指标,同时也适用于判别任务。他们提出了一种训练策略,以尽量减少模型更新中的实例回归程度,其中包括训练一种兼容性适配器,它可以增强任务微调语言模型。结果表明,在使用该方法将 Llama 1 更新为 Llama 2 时,负翻转率最高可减少 40%。
反击来了!新工具让生成式 AI 无法学习有版权歌曲
田纳西大学诺克斯维尔分校助理教授刘健、里海大学助理教授孙力超等人合作开发了首个旨在通过让生成式 AI 模型无法学习音乐来保护音乐家知识产权的防御框架 。通过在音乐中嵌入不易察觉、误差最小的噪音, 能有效防止 AI 系统提取有意义的模式,同时保留音乐质量。