OpenAI 发布会:新功能、降价、AGI 愿景,Sam Altman 的坚持与突破
文章摘要
发布会:新功能、降价、AGI愿景,Sam 的坚持。
• 实时API公测,低延迟语音对话
• ️ GPT-4o图像微调和免费token优惠
• 提示缓存和模型蒸馏降低开发成本
在原始初创高管全部出走之后,对的质疑、批评不绝于耳。
在一片唱衰声中,打起精神,办了今年巡回式的第一场,发布了一系列功能更新,包括一些价格优惠。
对于开发者来说,这些更新并非毫无价值。而对于最近一直在吃瓜人事地震的围观群众来说,这是属于Sam 的爽文里的又一个章节。
更新、降价全都有,但不多
去年的开发者大会上,多模态是关键词,今年则是实时+推理。
主打低延迟、多模态的 API开放公测,由4o模型支持,配备六种预设声音进行自然的语音对话,类似于“每个人自己的高级语音模式”。
每分钟音频输入约0.06美元,每分钟音频输出约0.24美元。目前刚刚开放,实测不多,从发布的官方演示来看,识别和应答确实流畅,延迟几乎无感。
您目前设备暂不支持播放
在发布会现场,工作人员还演示了一下如何利用它强大的应答能力,订购了四百只草莓甜品,复杂任(整)务(活)也流利应答。
从演示上看,这对许多专注或是涉及语音交互的产品而言是个好消息,比如语言学习、聊天机器人等等,原本的文本-语音链条可以简化成一个API的调用。当然现在才刚刚开放公测,需要后续观察稳定性问题。
除了 API之外,这次还发布了图像微调,在文本微调的基础上,又多了一项更可控的实现模型自主微调的方式。
只需100张图像就能提高GPT-4o在视觉任务上的性能,甚至在处理大量文本和图像数据时也能提高性能。
在官方演示中,特别提及了自动驾驶、医学影像分析两个领域,对它们而言,图像是更有意义的训练数据,能够明显提高模型的视觉理解能力。
在10月31号之前,给使用4o进行图像微调的开发者们,每天最多一百万的免费token。活动期结束后,每一百万的token定价是25美元。
如果说这只算是一点限定时间的小优惠,那么这次引入的提示缓存( ),则能够实打实地降低成本了。
其实八月的时候推出过类似的功能。在开发过程中,总会有不同的API调用相同的上下文。在引入提示缓存后,通过记住常用的提示,来加速推理模型生成输出,从而加快使用时间、降低成本。同款模型的基础上,成本可以减少一半。
另外亮相的功能则是模型蒸馏,基于GPT-4o和o1-等高级模型,可以定制出更小、更便宜的定制模型,有利于在开发过程中平衡性能和成本。
屠龙少年四个字,已经说倦了
这次的开发者大会,相比去年低调了不少。去年除了有Sam 像乔布斯一样,站在台上侃侃而谈,还有微软的CEO出面撑场。
不过低调有低调的好处,不知道还有多少人记得:去年就是在开发者大会办完11天之后,董事会突然解雇了Sam ,引发第一次人事地震,被称为内部宫斗。
而上个月,Mira 、Bob ,以及 Zoph都离开了。算上来,无论是当初支持Sam 的人,还是反对他的人,现在都离开了这家公司。
又是一场多事之秋。
这次的之后,不少评论说这是给未来的路线定调了:要更专注开发者服务,而不再纠结于做终端应用。
这个说法不太准确。实际上,一直以来就是这个路线。去年的开发者大会,除了推出GPT-4 Turbo之外,其它的包括 API、自然语言编程、GPT商店,都是更多在面向开发者的。
同样一如既往的,是Sam 对于AGI的宏伟愿望。今年虽然没有他的演讲环节,但是在后面的圆桌对谈上、他的个人X上,他都没有缺席,也没有转变口风。
9月23日,他在自己的博客上写了一篇长文,《智能时代》。
他写到,“我们很快就能与人工智能合作,帮助我们完成比没有人工智能时多得多的事情;最终,我们每个人都可以拥有一个个人人工智能团队,由不同领域的虚拟专家组成,共同创造几乎任何我们能想象到的东西。”
无论现在Sam 在你眼中是怎么样的形象,你都无法否认,他对自己信念的坚持,几乎到了真理一样的程度。
然而天遂人愿从来都只是一种祝福,只需看看他自己的团队就知道,事情总是不会按照计划来。
曾经要做一家非营利组织,不由其首席执行官或股东控制,只为AGI保驾护航。如今,它将面临成为一家营利性公司的转身,Vox称之为“崇高愿景最后的丧钟”。
挣钱也无可厚非。只是,想要通过AGI——先不要拔这么高吧——想要通过大语言模型技术挣钱,并不简单,面向开发者已经是比较明智的一条路径。
在任何一个新技术出来之后,一方面,我们首先会尝试的,就是用它来解决现有的问题。LLM在这方面显然发挥了作用:知识检索、编程、处理重复的案头工作,它的表现点燃了很多人的希望。
另一方面,会有许多更具探险精神的创业公司、开发者,挑战创造属于LLM的原生服务,比如聊天机器人、生成式媒体等等。
“原生”二字的要义在于,离了它就不行。就好比当年利用了智能手机越来越高精尖的摄像头,并通过本地计算来添加滤镜,没有这样的摄像头、没有本地运算的能力,就不行。
又比如,离不开视频体裁的普及,微信离不开语音功能的普及,外卖这项传统业务,则因算法而改头换面。
这些例子说明的是:当拥有一项通用技术时,我们应用它的方式,是将其拆解成单一用途的工具和体验。
从这个角度来讲,一家非营利性的机构,或许并不适合做拆解的工作。制造电动机的人,不一定会造出装载着电动机的电钻、洗衣机,但是可以和洗衣机厂商合作。所以,建立并培养一个开发生态,不失为更明智的做法。
然而,这让加速转型成为营利性质的公司,在姿态上显得别扭。建立开发生态的工作,可以让营利部门来完成,也不是没有。
更重要的是,彻底转型成为公司,会让Sam 对AGI的执念,显得有一些吊诡。
在他的愿景里,人工智能不仅“有助于修复气候危机,建立太空殖民,以及能够发现和研究物理现象。”
上可及九天揽月,下能写阅读理解。
可这不是一家公司的使命。归根到底,一家营利性公司的最大目标是向股东负责。在行动上,是找到市场机会,调用自身的人力、资本配置,制作出对应的产品或者服务,最后实现盈利。
如果研究物理不能让股东挣到钱,是研究不了多久的。之前的机器人研发项目登月工厂,就是一个前车之鉴。
可以说Sam 所秉承的理念,实际上不是一个容易变现的想法。但为此付出的代价,却是整个的改头换面。
因此,舆论对转型发出尖锐爆鸣,并不是没有理由的:那个曾经扬言要改变一切,同时又守护人类的超酷团队,彻彻底底变了。
去年九月,也是秋天即将开始的时候,《连线》杂志用一整个特辑报道,当时封面上有四个人。
主笔的总编辑问过多位(当时的)高管,开始探索盈利之后有没有影响的内部文化。所有人都坚持没有,尽管进行了营利性重组,尽管与谷歌、Meta和无数初创公司竞争,但使命仍然是核心。
一年后,这四个人只剩下Sam ,一同消失的,还有曾经他们口中的使命。
拥有股权与公司,送队友一个个离开,坐享无边的财富与寂寞——原来硅谷神话的终极叙事,是晋江男频爽文啊。