中国 AI 领域取得长足进步,大模型之争开启序章
中国作为后起之秀,凭借庞大的市场需求、持续的政策支持和不断涌现的创新力量,在AI领域取得了长足的进步
文 |《瞭望》新闻周刊记者 郭方达
2022年末,的横空出世在全球范围内引起轰动。一时间,成百上千个大模型如雨后春笋般涌现,生成式人工智能遍地开花,“大模型之争”开启序章。“群模”乱战的2023年,文本生成、文生图、语音处理、代码处理、视频处理等应用产品海量井喷。
有数据显示,截至4月底,国内共推出305个大模型;10亿参数规模以上的大模型数量已超100个。
5月,全球数得上名号的大模型玩家更是一窝蜂地抛出大动作——
5月9日,阿里云正式发布通义千问2.5,模型性能全面赶超GPT-4 Turbo;5月13日,零一万物正式发布千亿参数规模的Yi-Large闭源大模型;次日,发布了迄今最像“人”的AI大模型GPT-4o;北京时间5月15日凌晨,谷歌召开开发者大会,全线更新了;同日,字节跳动发布包括多模态大模型在内的豆包大模型家族……整个5月,中美大模型巨头“你方唱罢我登场”,胶着的竞争态势将轰轰烈烈的“大模型之争”带入了“卷”技术与价格的下半场。
从区域分布来看,全球大模型“美领跑,中紧跟,其他区域跟不上”的态势已基本明朗。
中国科学技术信息研究所、科技部新一代人工智能发展研究中心去年发布的《中国人工智能大模型地图研究报告》显示,我国研发的大模型数量排名全球第二,仅次于美国。中美两国发布的大模型总数,占全球八成以上。
在“大模型之争”的下半场,中国的胜负手何在?受访专家表示,持续稳定的政策支持、庞大的算力规模和广阔的应用场景是中国独特的竞争优势和巨大的发展潜力。
仿生人形机器人在2024中关村论坛年会会场设置的咨询台“迎宾”(2024年4月27日摄) 任超摄/本刊
差距不断缩小
在全球“大模型之争”开启之初,“中美在AI领域差距有多大”曾是公众关注的热点议题,彼时业内人士给出的判断从1~2年到8~10年不等,判断依据主要包括创新生态、高端人才数量、基础研究、算法创新、算力规模、市场应用规模等。
经过一年多的发展,业内认为,这种差距正在大幅缩小。清华大学基础模型研究中心联合中关村实验室发布的《大模型综合能力测评报告》显示,在14个海内外具有代表性的模型当中,GPT-4系列模型和-3等国外模型在多个能力上依然处于领先地位,国内头部大模型GLM-4和文心一言4.0表现亮眼,与国际一流模型水平接近,且差距已经逐渐缩小。
“一年前,我们(中国)落后、~10年,我认为现在差距在6个月左右,大大降低了。”创新工场董事长、零一万物首席执行官李开复近期在接受公开采访时说,从落后7~10年,到落后6个月,是一个不可思议的“超级速度”。
稳定的政策支持为大模型快速发展“补能”。《瞭望》新闻周刊记者梳理发现,近年来,我国高度重视人工智能发展机遇和顶层设计,出台了一系列扶持政策:2017年,国务院印发《新一代人工智能发展规划》;2022年,科技部等六部门印发《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》;2024年政府工作报告提出开展“人工智能+”行动……
赛迪顾问人工智能与大数据研究中心发布的《中国大模型发展研究报告(2024)》认为,我国大模型产业发展的政策重点在于强调创新驱动与生态优化,通过创新体系整合与政策支持强化、数据开放共享与隐私安全并重、跨界融合与行业标准化建设、加速人才培养与国际合作、促进产业生态协同发展等几方面为大模型技术与产业发展提供强有力的政策支撑。
受访人士表示,稳定的政策支持有助于我国集中力量推动大模型技术的快速发展,尽快缩小差距,抢占技术高地。
算力规模大驱动大模型加速成长。全球范围内来看,随着大模型规模日益庞大,算力能耗已成为制约大模型进一步发展的瓶颈。数据显示,我国算力规模、存力规模、运力质量都在不断提升。截至去年8月,全国在用数据中心机架总规模超过760万标准机架,算力总规模达到(FLOPS即每秒执行的浮点运算次数,=10的18次方FLOPS),位居全球第二;围绕算力枢纽节点建设130条干线光缆,数据传输性能大幅改善。
受访人士说,算力是大模型训练与应用的核心驱动力。近年来,国产芯片产量大增,智能算力全球占比领先,显示出我国在算力领域的强劲发展势头。国家推动的“东数西算”等重大项目,将进一步优化算力布局,为人工智能发展提供有力支撑。
丰富的应用场景为大模型迭代提供试验载体。从本质上看,大模型的技术能力再强,最终落点也是要为生活和生产所用。北京智谱华章科技有限公司首席执行官张鹏说,大模型发展需要场景驱动,我国产业门类齐全、经济规模巨大,在预测、采购、营销、定价、运营及改善用户体验等方面有极大的应用潜力。
5月,大模型与学习机结合的热度开始爆发。在这一个月中,小度科技在新发布的小度学习机Z30上,落地了文心大模型;猿辅导首次披露了大模型架构,以及AI课程的结合;网易有道旗下“子曰”教育大模型技术升级,并披露了“LLM翻译”“虚拟人口语教练”“AI作文指导”等六大落地应用。
网易有道首席执行官周枫认为,当前已经是“模型即应用”的时代,大模型的发展需要结合应用场景去迭代优化,在“产模一体”的框架下去同步提升模型与产品。
中国信息通信研究院院长余晓晖说,从近期来看,大模型已在日常办公、文本创作、图像视频生成、客服问答等领域展现较大发展潜力和应用价值;从中长期看,大模型将与制造、生物医药、能源、交通等实体经济领域深度融合,不断提升创新效率、拓展应用领域、提高生产效率,成为各行业转型升级的基础赋能工具,带动更大范围创新。
赶超仍存挑战
当前,大模型与人工智能技术仍处于中美科技竞争的焦点,我国在过去几年取得了快速进步,但仍面临一些发展困境。受访人士认为,我国在基础算法创新、底座大模型训练数据、公共算力占比等方面仍存在一定差距,需要尽快补足。
基础技术创新不足。受访人士认为,国内大模型的差异主要表现在模型设计和训练方式上,但从技术路线看,国内大模型发展缺少具有显著创新性的原创理论支撑,研发以追随全球先进成果为主。例如,人工神经元模型、知识图谱、深度学习框架、架构等开创性技术,大多由美国科学家提出。
理论突破和技术创新是大模型发展的首要驱动力,缺乏原始创新,在“别人的地基上建房子”使我国大模型发展容易被“牵着鼻子走”。
优质开源中文数据集短缺。作为大模型的“养料”,优质中文数据与英文的差距也不容轻视。
受访人士说,得益于开源共创的互联网生态,海外已有大量优质、结构化的开源数据库,文本来源既包含严谨的学术写作、百科知识,也包含文学作品、新闻媒体、社交网站等,更加丰富的语料数据能够提高模型在不同情景下的对话能力。而受制于搭建数据集较高的成本以及尚未成熟的开源生态,国内开源数据集在数据规模和语料质量上相比海外仍有较大差距,数据来源较为单一,且更新频率较低,模型的训练效果受限。
《全国数据资源调查报告(2023年)》显示,2023年我国数据生产总量达32.85ZB(泽字节)。北京大学人工智能安全与治理中心执行主任杨耀东认为,不同国家及行业之间的数据壁垒依旧存在,如何让数据供得出、流得动、用得好依旧是重要课题。
公共算力占比低制约大模型规模化应用。国家信息中心发布的《“人工智能+”时代公共云发展模式与路径研究》显示:2018年至2022年,我国在用数据中心机架总规模年均增速超过30%,但2022年上架率仅58%,低于全球平均水平。
国家信息中心信息化和产业发展部主任单志广表示,目前我国算力利用率仍不高,尤其公共云占比较低,制约了大模型规模化应用。
有媒体认为,中美两国服务器数量差距并不大,但美国60%以上的算力都是以公共云的方式提供,而中国只有约28%。在企业有着迫切算力租用需求的时候远水难救近火。
处理好全面追赶和局部突破的关系
美国特斯拉公司首席执行官、太空探索技术公司首席执行官埃隆·马斯克在近期的演讲中谈到,中国作为后起之秀,凭借庞大的市场需求、持续的政策支持和不断涌现的创新力量,在AI领域取得了长足进步。中国企业在AI技术的研发和应用方面展现出极高的灵活性和创新能力,不断推动着AI技术的边界向前拓展。
提高我国大模型竞争力,还应发挥优势,处理好全面追赶与局部突破的关系。
强化公共云对大模型的广泛支撑作用。国内大量自建IDC的平均资源使用效率往往不到5%,而亚马逊AWS、谷歌等公共云厂商的数据中心资源使用效率一般可达30%~40%。所以,破解我国算力瓶颈的关键路径之一在于提高既有芯片和产能的利用率。
单志广表示,通过发挥公共云大规模机器调度等,不仅能将已有先进芯片集约化利用,还能充分利用已有的通用CPU资源,为AI大模型训练和推理应用提供必要的算力支持。
推动业内创新研究协同。中国工程院院士邬贺铨表示,不少单位各自独立研究大模型,难免低水平重复,建议在国家科技与产业计划的协调下合理分工形成合力,如组建算力联盟,集中已有高档GPU的算力资源。
深圳开鸿数字产业发展有限公司首席执行官王成录也认为,更多领域的开源共享,是实现技术积累量变到质变的有效途径,“必须克服各人自扫门前雪的单兵作战思维。”
加速产业化落地,在应用层实现更快追赶。“产业的‘AI+’,是可以重点发力的方向。”中国新一代人工智能发展战略研究院执行院长龚克认为,得益于庞大完备的工业体系,我国有着数实融合的天然基础,应尽快发掘对于传统领域的赋能作用。
百度创始人、董事长兼首席执行官李彦宏说,看PC时代,基本上只有一个操作系统,但是基于系统开发的软件有很多;移动互联网时代,主流操作系统也只有安卓和iOS两家,而移动应用有800万之多。AI时代,我们需要100万量级的AI原生应用,但是不需要100个大模型。产业政策应鼓励基于大模型的AI原生应用,推动构建起繁荣的AI生态。(参与采写:张漫子 梁姊)■