OpenAI 年度开发者日:实时 API 等重大更新助力 AI 发展
核心观点:
美东时间10 月1 日, 举行了年度开发者日,推出一系列新工具,并宣布了 在实时API、视觉微调、提示词缓存、模型蒸馏等领域的重大更新。
(1)实时API:简化构建语音助手和其他对话式AI 工具的过程,构建低延迟、多模式对话体验。实时API 能够构建低延迟、多模式对话体验,创造更直观、响应更快的AI 驱动体验。实时API 本质上简化了构建语音助手和其他对话式AI 工具的过程,省去了将多个模型拼接在一起进行转录、推理和文本到语音的转换的过程。过去开发语音助手需要多个模型来配合工作,实时API 使得开发者可以通过API 调用实现从语音识别到生成的整个流程,简化了语音助手的工作流程。
(2)视觉微调( Fine-):使用图像数据集对 GPT-4o模型进行微调,进一步增强模型的图像处理能力。 最新的大语言模型(LLM)GPT-4o 引入了视觉微调。此功能让开发人员可以自定义模型以获得更强大的图像理解和处理能力,用于视觉搜索、自动驾驶、医学影像分析等领域。视觉微调过程与文本微调类似:开发人员将图像数据集上传到Open AI 平台,可以用少至100 张图像提高GPT-4o 在视觉任务中的性能,并使用更大量的文本和图像数据来提高性能。
(3)提示词缓存( ):实现token 后续调用中重复使用,有效降低成本、减少延迟。提示词缓存使得最近处理过的输入token 后续调用中重复使用,尤其适用于经常重复使用上下文的应用场景。 引入的提示词缓存系统自动对模型最近处理的输入token提供最多达50%的折扣,大幅的成本下降给成本导向的初创公司探索新应用提供了广阔空间。
(4)模型蒸馏(Model ):通过高级模型输出,微调小型、低成本的高效模型。模型蒸馏通过捕获并存储高级模型生成的输入输出对,生成用于蒸馏的数据集,为开发人员提供集成的工作流程,用于小型模型的特定任务。模型蒸馏使得开发人员将GPT-4o 等前沿模型的输出,用于微调和提高GPT-4o mini 等小型、低成本模型的性能,使得小模型也可拥有尖端模型功能。
投资建议。实时API 等新工具的发布,标志着模型能力上限再次被提升,拉动算力需求进一步上行,2025、2026 年可能远非算力投资的顶峰,算力需求中长线逻辑再次确立。继续看好光模块龙头公司投资机会。
风险提示。AI 基础设施建设不及预期的风险;AI 应用发展不及预期的风险;AI 领域的进出口政策变化的风险;国际合作减少的风险。