轩辕之学巨浪4期学员韩东:人工智能时代的即将来临
设计/ 师 超
2022年开始由推出的的惊人表现迅速让人工智能成为全社会的热点。
这种热度不只是表现在舆论场,全球资本市场真金白银的巨额投入以及英伟达作为人工智能时代核心厂商市值的飙升都宣告了一个新时代的即将来临。
轩辕之学巨浪4期学员韩东正处于这一大风口,作为的创始人,他公司的主营业务是帮助企业建模型工厂,训练模型,赋能应用,为汽车行业链条上的企业赋能。
韩东本人从事人工智能相关工作约在20年前,当时是作为学生身份。他2004年至2008年就读德国马克思普朗克研究院计算机所,专业是计算机科学。马克思普朗克研究院计算机所是欧洲排名第一阵营的计算机科研院所。
“2012年之前深度学习是计算机领域一个没人愿意碰的东西,坚持下来的人并不多。当时没有人需要AI博士,大家其实都找不到工作。”韩东说。
2024年3月17日,轩辕之学巨浪4期第六模块“汽车营销新思维”课程的第二天下午,按既往惯例,学员进行分享,每次大概2-3人。韩东作为第一个学员进行分享。
“我是AI科班出身的从业者,二十多年前大学一年级就开始在德国人工智能研究中心做NLP的研究助理工作,也做了计算机视觉和机器学习的研究,十多年前就在ICCV上发表文章。后面经过了德国创业孵化器的熏陶叫 ,这是一家孵化了众多独角兽公司的孵化器。”
他说2020年之前,深度学习训练出来的的水平和1960年的水平基本没有本质区别,过去六七十年一直没有什么大的变化。前几十年很少有人相信这件事能做成,觉得深度神经网络是一门玄学。但GPT3让大家第一次看到了所谓的涌现能力,之前没有训练模型做这件事情,但模型自己就会。你会发现训练出来的模型可以做无数件它没有遇到过的事情,这一直是大家梦寐以求的事情。
此次分享会,除了韩东,中科创达智能网联产品中心总经理马强也进行了分享。
马强毕业于人民大学EMBA,他在智能网联汽车电子软件行业超过15年以上。他曾在东软集团任职,2015年加入中科创达。
以手机软件起家的中科创达随着2015年智能座舱概念的兴起成功进入了座舱领域,公司营收也由此进一步增长。但马强说近几年中科创达也正经历转型。他说目前操作系统厂商和芯片厂商,除了进行标准系统的开发外,也同时进入了定制化业务,这对中科创达的原有业务产生了一定影响。这是当前他们的挑战之一。
另外,主机厂的降本要求与日俱增。他说最开始做高通8155芯片时,车企一个座舱平台的研发预算大概在大几千万元,现在已降到几百万元。
以下是他们两位的实录摘要。
韩东:全球最领先的汽车行业大模型公司肯定来自中国
2012年之前深度学习是计算机领域没人愿意碰的东西,做深度学习坚持下来的人并不多。 GPT2出来的时候效果非常糟糕,没有人把它当学术来对待,但是GPT3出来让所有人都惊呆了,大家觉得这个方向真的可以走通。这也导致现在这一领域的人才数极少,大部分被和谷歌两家公司卷走了,基本上来讲,你很难吸引这些人回到国内的公司。
现在大家的共识是AI将重构每个国家的战略、行业、应用。我们过去这一年跟美国、跟欧洲很多这方面的专家打交道时发现,很明显AI在大国竞争当中扮演非常重要的角色。
回到具体行业当中,我给大家说一下哪些公司真正从当中获益了?
最大的三个机会,第一个在GPU领域,大家都知道英伟达过去一年通过大模型他们非常的飞速增长,包括毛利、净利润,这些都非常的惊人。第二个大的商业机遇在云计算领域,因为所有这些AI模型对外提供服务的时候,都得在云上对外提供。第三个可以从两个角度来说,一个是行业角度,因为各行各业后面都会被AI赋能。我们日常生活当中可能用到最多的三个端侧,一个是PC电脑笔记本、第二个是手机、第三个是汽车。
中国在汽车这个场景下是一个无法忽略的市场,因为占领全球三分之一。AI比拼主要还是中国和美国之间,车的大模型这一块美国公司很难去做到全球领先,因为美国可能连相应的客户都没有,车厂也只有特斯拉一家。所以这一块我有一个信念,全球最领先的汽车行业的大模型公司肯定会来自于中国。
我们说行业大模型到底是什么意思?它不是说我们做一个行业大模型可以解决汽车行业所有的事情,而是去跟通用基础大模型进行区分。在行业大模型基础上,更多去跟汽车行业具体场景结合,在不同的环节加入额外的高质量数据得到额外的能力去解决具体的事情,就好像数字员工,有些做专业文档写作,有些做软件开发和测试。
我们自己在这一年主要做了两件事情:搭建了一个训练大模型的模型工厂,包括整个数据处理,训练和推理的基础设施,同时有能力去给各个客户或者合作伙伴输出不同的行业模型或场景模型。
整个模型训练的工程过程,一开始有非常大量的数据,很多是公开数据,如果说训练一些行业模型,场景模型可能会有些企业数据。公开数据会在模型工厂里有整个数据的预处理,数据混合(data mix),ETL的管道,同时不断的有一个评估的过程,再去做训练。但是因为数据量太大了,深度神经网络又不是可解释的东西,所以就造成了大模型特别难训练,因为模型参数太多,数据量太多,单纯训练就很难,把那么多GPU连起来也很难,高算力的GPU包括A100或者H100包括昇腾等,这些都是半成品,现在还处在不断的在往前迭代的产品,问题非常非常多。
我这边举个核心挑战的例子。超大规模的数据处理,GPU算力利用率。算力的利用率这边有一个对标的数字就是GPT4大概在2万多个A100的进行了90-100天的训练,算力利用率只有33%,就是说这么长时间很多机器并不是真正在做训练的。整体的花费,跑一次大概在6千万美金,跑一次是什么概念?这是成功的一次,但在之前至少做的实验数目整个成本可能是10倍-50倍之间。GPT4也比较贵,它本身是万亿参数的模型,本身就非常复杂难收敛,包括GPU太多时候要保证它的稳定性也更难。
在超大规模数据处理这一块,我们在基础设施上面希望能解决一些问题,让我们后续训练高效。基座模型基础上如果进行重新的预训练或者说继续训练,我们要保证数据加进去的时候不是从头开始,而是可以继续收敛我的loss曲线,不同的功能点、不同的指标能够同时不断的去收敛,就这件事情非常难做到。
但是做到之后,取得的效果有点像可能训练第一个模型花了100块,再训练第二个模型在处理数据的时候可能只需要花1块钱,但是如果没有这个东西,可能第一个模型花100块,第二个模型还是花100块,再往下整个从经济学上或者跟服务客户的时候这个账就算不过来了。
第二个是GPU利用率,包括模型训练中断怎么再接起来?一开始训练中断,解决问题经常要解决一两天甚至两三天才能让它继续训练,但现在我们已经把这个时间从一两天、两三天降到一到两分钟,这对于整个的成本改变非常大。
在整个GPU的计算利用率上面,我们刚才也看到包括当时做GPT4,整个计算利用率30%多,万卡集群上目前为止也没有人可以做到更好。我们目前数百张卡的集群,计算利用率达到85%,远远超过业界平均水平,这个到最后就是非常大的影响成本的指标,因为这个行业需要不断的去训练各种参数规模的模型。
我们也摸索了和客户共同创新的方式,一般会先做可行性研究包括POC,然后具体场景的智能化改造,这个市场就很大了,各个公司都有AI赋能的场景。
我们有几个具体的客户,这是帮助一家国际的Tier1来解决设备维修问题,它有报警之后会自动出来维修的建议。过去维修的建议它的准确率是比较低,所以无法真正让工人很有效的把它使用起来,但我们通过大模型,很快的帮它把故障识别率做到90%,而过去只有10%,这个工具就变得真正切实可用了。
质量标准问答也是类似的Q&A系统,在做这件事情的时候,企业内部有非常大量的数据,但这些大量的数据很多都是非结构化的、分散的,散落在各个地方,过去并没有很好的方法能够把这些文档、过去的知识、数据引入到AI模型当中来。但现在大模型的能力,它不需要标注这些训练的数据,你只要能够把它一起收集起来,把它放进来,做一定的预处理和数据混合,我们自己还只是语言模型,所以我们在做视觉训练时,包括流程图我们用其他多模态模型的接口,转化为文本来使用,通过大模型真正可以把它的知识很好的联系起来,让助手从过去10%的准确率提高到了80%。
第二个在汽车软件测试这一块,我们知道软件测试它有很多工具,但中途也会有很多人类专家介入的环节,人类专家介入的是什么?就是在理解人类的语言,然后做逻辑推理、分拆、计划下一步应该怎么做然后再去执行。
牵扯到这些语言的理解都是可以用大模型来做的,我们这边是用大模型和Agent把整个专业的测试样例去做自动化的生成,光在这一步大概有三、四倍的提升。整个这一块我们会发现只要过去有人类专家介入的工作流,或多或少在未来都可以用AI+Agent去把它部分取代甚至于完全的取代,它就形成端到端自动化,一旦端到端自动化就解决了非常多的问题,成本也可以大幅度降低。
我们差不多20个人左右做了这件事情。我们经常说到一个观点,这个行业在初期不配招太年轻的工程师,因为我们每个人的成本确实很高,更贵的是你要给他们配算力,这方面如果你用错一个人,会浪费很多钱,浪费掉的是算力。
马强:主机厂的降本需求与日俱增
我们公司是2008年成立的,公司创业时是基于Linux手机设备,包括手持导航设备还有手持特殊的终端设备。
公司最开始成立时是和中科院计算机研究所合作,所以叫中科创达,最开始做Linux操作系统的。
2009年,谷歌发布了1.0版的安卓操作系统,当时处于功能机向智能机转化的时间节点,我们公司因之前有操作系统的背景,所以也在安卓系统上做了很多前瞻的预研。正好那个时间点很多手机厂商想转型,自己没有这个能力,于是就找到了我们。
我们公司是一个战略导向型公司,基本上每一步都踩在了时代变革的机会点,也成就了后续的快速增长,很大程度都是抓住时代契机,不完全是我们人为的因素。
2010年之后,移动互联网兴起了,我们内部讨论,是不是要改做移动互联网?最后结论是不做,后来确实有很多同样的友商都在做移动互联网,之后都死掉了,这证明了要清楚认识自己的核心竞争力在哪里的重要性。我们的核心竞争力就在嵌入式操作系统技术,所以所有业务的扩展都围绕着这个点来做的,专注在自己擅长的领域才能成功。
后面到2015年就上市了,这个时间点又迎来了一个浪潮。
汽车行业从传统普通的娱乐控制器即IVI转成智能座舱的概念,原来可能只有DA或者叫IVI和仪表是分离的,从2015年开始智能座舱的概念就兴起了。这个时间节点,因为安卓系统进入汽车同时高通在这个里面逐渐越来越高的市占率,我们也借着这个浪潮又带来一拨增长。
后续成立合资公司,达成各种合作,这也是顺势而为。
最后一个节点,从Smart to ,我们开始裂变,逐渐把自己的业务范围快速的扩张以及跟行业生态绑定关系逐渐建立起来。公司经历了这四个阶段,主要业务范围包括智能终端、智能汽车、智能物联网还有人工智能AI,我所在的是智能汽车板块。
汽车大模型应用基本是两个方向,一个方向是传统语言模型方面的补足,以前我们用的语音模型都无法100%实现你的语言指令,始终达不到100%,你差一个关键词它就听不懂,以前是这样的。另外也没有上下文关联的能力,比如我说我要去天安门,你下一步就问它旁边有什么好吃的,它就不会了。但如果你用大语言模型,它可以帮你把上下文穿起来,相当于跟机器的交流更加人性化。
第二个方向是索引,在这里面可以把你以前的知识库,把这些数据给它有机的组成起来。你可以很容易的通过大模型去索引它,几乎它所有在车里的应用基本是基于这两个维度的扩展。
讲讲我们公司的合资情况。
首先是收购的公司,芬兰的,4.6亿元人民币。我们跟高通有两家合资公司,一家是自动驾驶领域的,还有一家做物联网相关领域的;和地平线的合资公司,是前年成立的;我们跟主机厂跟吉利等都有合资公司。
我们现在遇到什么问题?
首先说产业和市场的现状。座舱行业或者汽车软件研发的行业其实非常卷,主机厂的降本要求与日俱增,我们最开始做8155芯片时,一个座舱平台能做到大几千万的研发费用,现在只有几百万的研发费用,数量级都不太一样了。
主机厂为了降本,现在逐渐改变了竞标模式,以前经常遇到的方式是技术和采购两方面,技术先打一个分,采购依据你的价格也有个规则打一个分,两个分加起来谁最高谁就能中标。
如果说我们对技术这一块比较领先,技术分就会比较高,采购相关的,如果你的价格不是那么有竞争力,其实也是能拿到的。现在客户逐渐转变了策略,变为技术选三家合格的,最后只看价格。
第二,因为主机厂很多都自研,今天的安卓也在说要自研,很多主机厂号称自己要全栈自研。我们这个行业的友商很多也是因为有上市需求,所以它要收入,另外有一些生存的压力,所以基本上都在做破成本价的竞标,业务竞争非常的惨烈。
第三由于最近行业比较火热,有很多核心人才被挖,为了保留核心人才只能说给额外的待遇,类似于股权之类的,人员成本也逐年上升。
第四是业务转型。最开始他们的芯片、操作系统,无论是高通的芯片或者安卓的操作系统,它里面都是标准的系统,你想做定制化开发是需要巨大的开发工作量的,需要很多人力在里面,对于我们这种公司,在这里是应运而生的,我们就是做标准操作系统和用户需求之间的gap,无论是操作系统厂商还是芯片公司,他们从下面往上逐渐挤压我们的生存空间,所以这一块也是一个很大的风险。