AI 时代算力竞争激烈，刘韵洁院士谈弥补国内端点 GPU 短板的可能办法

aixo 2024-09-30 10:06:19

2024-09-30 10:06:19

AI（人工智能）时代同样也是算力的时代。国内外的科技企业、电信运营商纷纷“卷”起了万卡乃至超万卡，但生态兼容、异构计算等难题也成为行业必须翻越的高山。

9月28日，在2024中国算力大会开幕式期间，中国工程院院士刘韵洁接受

贝壳财经等媒体采访时表示，短时间内国内端点GPU仍无法与国外竞争。弥补短板的可能办法是建设算力网络“把整个算力练起来”，发挥GPU集群效果。

另外，他指出，不能简单判断哪类企业建设算力网络更有优势，主要还得通过技术评判。“看你的技术能不能使用、怎么发展，看你的创新、走的路径是不是符合需要。”对于算力成本问题，他仍强调“要用新技术解决”。

目前，刘韵洁研究的确定性网络技术能节省60%到70%的成本，他联合其他机构推出的算网调度项目，能够实现多个异地训练达到单点训练80%的效率。

建议走行业大模型赛道，要解决数据流通和算力利用率问题

“中国要走行业大模型这条路。”刘韵洁在主旨演讲中强调。他认为，国内通用大模型短期内跟美国相比可能差距较大，并且追赶起来具有一定难度。

他提出，国内模型企业如果能够在通用大模型基础上，把行业数据训练好、做好行业大模型，“完全可以走出中国道路”。他看好这一技术方向是因为他认为“中国行业数据最完整、全面”。

同时他表示，发展行业大模型需要政府、企业、资本一起努力。他向贝壳财经记者表示，当前，国内数据的共享、流通程度仍有待加强，这对训练行业大模型产生了影响，“大家还在摸索”哪类赛道更有前景。

2024中国算力大会披露的数据显示，全国算力总规模达246 。据刘韵洁观察，国产算力已具备一定规模，但利用率不算十分理想。

“算力想要服务实体经济，得几方都说好。”刘韵洁认为，首先算力和网络提供方要说好，“（因为）它们通过这些服务获得了效益”。另外政府要说好，“（因为）政府解决了问题”。最后企业要说好，“（因为）企业通过使用算力、网络提升了自身效率”。

他强调，只是“一方说好”的效果并不持久，这代表行业没有建立起算力生态。“不解决生态问题，大家也用不起来（算力）。”

确定性网络是未来算力网基础技术之一，将节省60%-70%成本

“大模型训练要求数据无损传输，对丢包、抖动和时延等网络指标提出要求。”刘韵洁说。他以国际数据标准为例解释称，丢包率达千分之五，传输效率将下降50%。

他进一步解释道，这就像在利用整条100G带宽传输数据时，只有50G的带宽有用。“当下降到1%时，它的效率约等于0，这就没办法训练、推理。”

网络不丢包需要采用RDMA（远程直接内存访问）协议。该技术使计算机能够直接访问远程计算机的内存，在内存层面进行数据传输而无需GPU频繁介入，减少数据传输过程中收发端的处理延迟及资源消耗。

如何达到大模型训练、推理的数据传输标准？刘韵洁认为，确定性网络技术相对符合要求，他判断它是“将来算力网的一项基础技术”。刘韵洁透露，2022年他带领团队在35个城市开通了确定性网络，目前城市数量已增至39个，能做到端到端的时延、抖动小于50微秒，实现零丢包。

在研发确定性网络技术过程中，刘韵洁认为最重要的技术突破是光电融合，它带来带宽利用率、电网成本能耗等方面的突破。

其中在成本方面，他以某一自动驾驶企业为例解释称，该企业在全国4个地方20辆车每天产生的自动驾驶数据，先传回上海再传到贵阳训练，大概需要两条10G和一条1G的电路，一年花费一千万元左右。

用不起怎么办？改用硬盘收集数据，在两个城市间运输，考虑数据丢失、硬盘损害等情况，一年需要190万元左右。而利用确定性网络，通过切片提供服务，“一年12万元就可以”。

刘韵洁强调，这种程度的降本通过网络共享实现。他在主旨演讲中展示的数据显示：已在试验网上运行三个月以上，参数效率达95%以上，成本节省60%到70%。

发挥GPU集群效果弥补国产算力短板

算力网络可能成为未来国产算力超越国外算力的方向吗？刘韵洁表示，更准确的理解是“弥补短板”。他认为，短时间内，我们端点GPU仍无法与国外竞争。“可能我在单个方面比不过你，但发挥群体力量后有可能比得上。”他进一步强调，发挥GPU集群效果需要建设网络“把整个算力练起来”。

他认为，大模型可以走协同训练、分布式训练的路子，“10万张卡在一个地方训练，电力会吃不消。”他透露，他的团队与中国科学院、国家超级计算无锡中心等机构联合推出的全国算力网络调度项目，能够达到分钟级解决排队问题的效果，多个异地训练达到单点训练80%的效率。“基本上，分布式训练、协同训练是可行的。”

当谈及如何协调算力硬件与软件发展关系时，刘韵洁提出，软硬件要结合、融合发展。

他表示，硬件生产消耗地球物理资源。“（每）消耗一点，资源就少一点。”而软件相对灵活，可以修改，对物理资源消耗较少，“这是一个很重要的社会发展理念”。另外，刘韵洁认为，软件开发消耗一定的人力资源，但应用AI后，开发效率有所加快。他继而提出，凡是能用软件代替的部分，尽量发展软件。

“但软件不是万能的，必须满足算力所要求的硬件条件。”他认为，软件无法承担的部分要与硬件结合发展。

如何打造共享的算力网络生态？刘韵洁建议，有关政府部门要把它协同、管理起来，企业和科研机构等要密切配合。“这是一个整体工程，但目前大家都是自己闷头干自己的。”

GPU