清华系大模型公司扎堆搜狐大厦

xiao 2024-04-23 09:27:16
大模型 2024-04-23 09:27:16

如果给中国大模型企业的创业图谱建立一个坐标系,位于清华大学东门外十字路口一侧的搜狐网络大厦或许是最合适的坐标原点。张朝阳可能也没想到,昔日互联网风水宝地,如今承接了新的技术使命。

2023年4月6日,美团联合创始人王慧文在朋友圈发文称:“新办公室第一天,切个蛋糕。”事实上,距他广发英雄帖招兵买马到正式成立这家AI公司“光年之外”,只不过短短两月。而这条朋友圈也恰好曝光了办公室的位置——光年之外就潜伏在搜狐网络大厦的三楼。

4天后,搜狗创始人王小川在搜狐网络大厦的二楼创立了“百川智能”,旗帜鲜明地对标OpenAI。巧的是,大厦的7楼到11楼,是另一家人工智能公司“智谱AI”的大本营。大厦不远处,分布着聆心智能、深言科技、澜舟科技等一众大模型先行者。

尽管成立的时间与契机各不相同,他们却都共享着同一个标签——清华系AI公司。

这些公司的主导者,都出自清华大学。论辈分,王小川算是王慧文的师兄,两人分别毕业于清华的计算机和电子工程专业;智谱AI的当家人则是智源研究院学术副院长、清华大学教授唐杰;聆心智能由清华大学计算机系副教授黄民烈创办;深言科技创始人兼CEO岂凡超为清华大学计算机系博士,联合创始人兼COO李潇翔则是清华大学电子系博士……

清华大学人工智能研究院常务副院长、欧洲科学院外籍院士孙茂松同时担任着深言科技的首席科学家,岂凡超曾说,想和教授交流时,只用走几百米回学校。

作为中国人工智能教育的起点之一,清华大学为国内大模型行业培养了众多中流砥柱。除上述企业,幂律智能、面壁智能、生数科技、月之暗面、衔远科技、一流科技等公司也纷纷带着清华血统,同样具备着强大的技术基因和“产研投”一体化优势。

新兴技术一般存在两种发展路径,分别是TPF(Technology Product Fit)和PMF(Product Market Fit),TPF注重发挥技术优势,PMF主张重视市场需求。“大模型本身更倾向于TPF,所以拥有雄厚研究资源的清华大学,在大模型理论创新和基础研究上占据天然优势。”AI分析师张翊珺告诉时代周报记者。

国家知识产权局和全球科学引文数据库数据显示,出自清华大学的大模型相关论文数量位列前三。“在大家公认拥有自研底座的企业里,超过一半都有清华系学者的背景。一方面是因为他们本身在技术路线上积累深厚,另一方面也是因为从学者、创业者到投资者,清华系相对抱团。”启迪国际技术转移有限公司副总经理卫冕表示。

虽说将某一群体冠以简单化标签不足以反映复杂的现实,但标签往往强调着特殊性。对内而言,这种特殊性在发挥集群优势的同时,也会阶段性地呈现由“群体规范”“群体压力”衍生的问题;对外来说,特殊性又代表着竞争格局分化和大众注意力的抢夺。

国内的人工智能研究晚于国外20年,不同于国外Open AI、Anthropic双寡头格局,国内大模型行业仍处于群雄割据时代,相互间紧密又割裂。

一方面,这些明星大模型公司背后站着重合的投资者;另一方面,携带不同基因的派别林立,大家在开源与生态、技术信仰等问题上喋喋不休,各执一词。行业分散,时刻面临洗牌,“清华系”这一标签带来的问题也呼之欲出:

他们之间能否实现有效、有序协同,在容错率较低的行业中一荣俱荣?当下国内绝大多数大模型公司还未经受深度洗礼、无法明晰产品优劣,清华系一脉在有限的资源争夺中,是否会加剧市场的马太效应?

抱团关键词:技术、资金与人才

清华系大模型公司抱团,表现在稀缺资源的价值取舍里,最直观的就是“钱”。

2024年年初,来自月之暗面的Kimi智能助手高举“200万字长文本处理能力”大旗率先出圈,完成10亿美元新一轮融资,投资人包括阿里、美团、小红书、红杉等大厂和顶级机构。此番融资后,月之暗面估值超百亿人民币,跻身“AI新五小龙”序列。

一位投资人士向时代周报记者称,月之暗面的融资离不开前金沙江创投管理合伙人张予彤帮忙牵线搭桥。巧的是,作为金沙江创投主管合伙人的朱啸虎曾不止一次公开表示对大模型的质疑:“我就不看好大模型。”

该投资人告诉时代周报记者,目前张予彤已从金沙江创投离职,但并未像外界所传的那样加入了月之暗面。

与月之暗面创始人杨植麟一样,张予彤也是清华学子,其最受关注的两例投资是小红书和深鉴科技。实际上,作为杨植麟的师姐,张予彤早在2019年就投资了杨植麟担任CTO的AI销售中台公司、智能销售系统、AI对话分析公司循环智能。

此次杨植麟的大模型创业,从组建团队到寻找投资人,张予彤也在背后提供了诸多支持。有投资人评价:“说服巨头转变战略大手笔支持你,并想出一个理想的交易结构都不是一件容易的事。”

在这些大模型初创公司背后的投资方中,“清华系”的创投者也充当了重要角色。图灵创投、卓源资本、清华控股、水木清华校友种子基金、无限基金SEE Fund等清华系创投机构频频出手,如图灵创投投了聆心智能、智谱AI,起源于清华大学FIT楼实验室的卓源资本投了生数科技。

“清华系大模型公司的抱团建立在信任基石上。”北京信息化局专家库信息化专家、工信部人工智能内容创作师认证主讲人李桢告诉时代周报记者。

“开源大模型并不意味着百分百开源,且这些开源的代码背后都暗藏着模型公司自己的技术逻辑和训练方法。而这些非公开信息会导致基座模型与嵌套模型间出现一些无法适配的情况,需要双方配合在基座模型上进行调整,这是业内非常基础的问题。”

“解决这项难题需要开源团队提供技术支持,但往往会面临技术泄漏的风险。在清华系大模型公司间,这种相互帮扶却很常见。”李桢补充道。

“可以想象到,未来清华系大模型公司间的抱团是更多维的。”张翊珺称,当各公司的业务逐渐跑起来,有关产品的调度与供给和交易账期等问题会更加灵活。

巧妙化解“重复造轮子”

清华系创业者似乎倾向于关注本质,对于竞争的思考不多。

清华校友王兴曾说:“太多人关注边界,而不关注核心。”清华大模型创业者身上也有类似的气质,他们将竞合视作常态。

从“百模大战”时期不难看出,国内大模型产品已陷入同质化。据时代周报不完全统计,截至2023年底,国内大模型数量不下200个。

百度CEO李彦宏曾公开表示:“国内200多个大模型其实都没有什么调用量,要开发好用、可用的大模型,存在很高的技术和成本门槛。”在他看来,“重复造轮子”是对社会资源的极大浪费。

“李彦宏的担忧不无道理,虽说对大模型的衡量标准很复杂,且各家产品落地场景也不同,但目前通用大模型在消费端的表现主要还是聚焦在内容问答、推理、总结上,并且模型能力的差异不大。”张翊珺表示,由于语料库的局限,模型提供的实时性内容太过干瘪,逻辑推理层面也并未达到预期。

2023年11月,在新华社联合北大发布的《人工智能大模型体验报告3.0》中,按照基础能力指数、智商指数、情商指数、工具提效指数四大测评维度进行设计,测评出综合能力排名第一的是科大讯飞旗下的星火大模型。

而基于语言理解与生成、知识理解与应用、专业能力、环境适应与安全性等标准的中文通用大模型综合性评测基准SuperCLUE,则在同期给出了以下排名:百度的文心一言4.0位居榜首,月之暗面的Moonshot、零一万物的Yi-34B-Chat、vivo的BlueLM、腾讯的混元、阿里云的通义千问2.0、智谱AI的ChatGLM3以及字节跳动的云雀、讯飞星火纷纷紧随其后。

“在测评标准一定重合的情况下出现并不统一的排名,说明在模型的实际表现中,大家没有太大差距。”张翊珺告诉时代周报记者。

事实上,国内大模型公司采用同样的数据集,相似的训练方法,对标同样的对象,确实难以产生多样化的竞争优势。这对于师承一脉的清华系大模型公司而言,按照常规路线发展无疑会使问题加剧。

“目前来看,清华系大模型公司的格局是以智谱AI为中心,布局人工智能的上下游。”关注硬科技赛道的投资人张巍向时代周报记者称。

时代周报注意到,2024年3月底,致力于打造智能芯片系统的清程极智完成数千万元人民币首轮融资,中金、中关村智友领投,智谱AI、北京国管顺禧基金、中关村科学城基金等跟投。智谱AI持股比例为2.1673%。

此前,智谱AI还投资了清程极智的友商——AI大模型软硬件协同优化平台公司无问芯穹。这两家企业同属清华系,清程极智出身清华计算机系,无问芯穹出身清华电子系。

“行业竞赛已经角逐到推理方向,大模型公司都很需要训练与推理系统的国产化推进,以及技术自主与创新。”张翊珺表示,智谱正在不断完善自己的生态圈。

被称作全线对标Open AI的独角兽企业,智谱不仅在技术和产品上向其看齐,边融资边对外投资的思路也如出一辙。智谱AI CEO张鹏此前曾表示,希望打造一个大模型生态。把生态圈越做越大,实现更长远的商业化目标。

据时代周报不完全统计,截至目前智谱AI已经投资了十多家AI相关创业公司。

会对“非清华系”造成排挤吗

清华系大模型公司之所以形成围绕智谱发展上下游的有序格局,实则是被动的。张巍称,各公司间资金实力悬殊,他们普遍囿于资本市场的投资逻辑和有限的资金中。

“大模型的开发成本是十分昂贵的。主要开销是人力成本、获取数据以及清洗费用、电费和硬件费用。”长期关注AI的投资人陈纬表示。

近日,斯坦福 HAI 研究所发布了第七个年度的AI Index报告。报告称,人工智能性能的提高是有代价的。报告发现,前沿人工智能模型的开发成本正变得越来越高——Gemini Ultra 消耗了价值 1.91 亿美元的计算资源,而 GPT-4 的开发成本估计为 7800 万美元。

该报告还显示,过去一年AI 行业吸引了252亿美元的投资,几乎是2022年投资的9倍,是2019年投资额的约 30 倍。

“即便行业内聚集了巨额的资金,但对于大模型这项庞大的工程来说依旧捉襟见肘。”陈纬补充道。她还表示,当大模型训练完毕流向用户,模型厂商还需要承担用户产生的算力成本。

“技术巨头可以依靠其他业务输血,创业公司就相对危险了。但一般来看,资本市场能养活的公司往往只有2个,参照网约车、本地生活这些赛道,最后只能留下2家巨头。这也是风投机构为什么不愿意广撒网的原因,押注过多筹码意味着未来难以退出。”

“此外,由于行业发展太快,投资窗口期和投资门槛过高也是资金短缺的重要因素。当资本和技术巨头们都已经选定了合作伙伴,留给其他公司的钱就不多了。”陈纬补充道。

智谱与MiniMax因成立较早,在资金上拿下了先发优势,随着其估值水涨船高,多位投资人向时代周报记者表示,等想要出手的时候,投资门槛已经相当高了,退出可能需要5年以上,大家都不敢冒着整支基金回报的风险去投大模型。

同样成立较早,分别背靠微软,Google与亚马逊的OpenAl和Anthropic,前者当下估值超800亿美元,后者估值为150亿美元,而其他AI独角兽的估值都在百亿美元之下。

显然,在有限的资源下,清华系的有序分工实则是聪明的做法。

一位苦融资久矣的大模型企业创始人向时代周报记者称:“在技术差距没有那么大的情况下,投资人在选择标的的时候更看中背书、成功经验。‘清华系’模型公司一直是投资人的优先选择对象。”他认为,有标签,总归比籍籍无名好。

“对于‘清华系’大模型企业和其他企业的资金竞争关系上来看,我认为应该站在更宏观的角度。”李桢表示,“清华系”大模型企业不会对“非清华系”企业造成挤压。

他称:“国外大模型的开源比较彻底,国内企业在国外模型的基础上自建模型也可以做出非常高质量的模型。”他认为,国内大模型企业可以分为很多派别。一类是以阿里,字节,百度为代表的技术公司系,一类是具备学术基础学院派,还有具备独特行业属性的类似华为系等等。

“事实上,每家公司都可以因为社会因素、市场因素被划分至不同的派系,大家都拥有同等的发展机会,都面临着与国外在数据质量和算力上的差距。”李桢补充道。

面壁智能CEO李大海向时代周报记者称:“百花齐放才是春,相较于标签或许会产生的‘群体规范’,企业更关注整体环境的竞争压力。”

实际上,市场上一直存在称“清华系”大模型企业“象牙塔味儿”太重的声音。这种声音来自于各家企业抛开用户增长与商业拓展,过度地在关键数据指标上掰手腕,过多地强调在某些参数和指标的全球排行榜名次,片面依赖论文等学术成果和开源社区表现。

“判断大模型企业的商业化是否有前景,要从其产品定价策略、客户付费能力、产品营销推广、人员构成以及收入规模来判断。”张巍告诉时代周报记者。

据了解,智谱双语千亿级超大规模预训练模型ChatGLM-130B定价120万元/年,ChatGLM-66B 100万元/年,ChatGLM-32B 50万元/年,ChatGLM-12B 25万元/年。智谱CEO张鹏此前表示,截至2023年11月,公司研发相关人员大概占百分之六七十。研发人员里包含数据、产品、解决方案等等。“市场人员后续会增加多一些。销售几十个人,占比百分之十几左右。整体上,还是保持研发人员占大比例。”他称。

张翊珺表示:“B端用户的付费意愿要优于C端,智谱主要面向B端,预计会比C端产品更容易落地。大模型的竞争力在于好用和便宜,美国解决了第一点,而国内目前两个都没有解决。”

但好在,竞争压力会时刻提醒驾驭着学术航母的清华系新秀们,商业的战场不会优待文质彬彬的学者,此消彼长的参数最终还是要用人民币做计量。