“算力网风云”系列报道:人工智能的走向纵深

aixo 2024-05-17 09:38:47
算力 2024-05-17 09:38:47

编者按:

在数字经济潮涌与大模型井喷的时代,算力正如水、电一般,逐日成为现代社会赖以生存的稀缺资源。可以说,谁拥有了算力的主导权,谁就捏住了面向人工智能的头等船票。

这样的时代巨浪下,我国的算力也已步入高速发展新阶段。在此过程中,构建全国一体化算力网,更是应对新一轮科技革命和产业变革的重要举措。

在“东数西算”工程公布两年之际,当前我国算力网体系建设现状怎样?如何进一步强化全国一体化算力体系?就此,21世纪经济报道推出“算力网风云”系列报道,围绕中国算力一体化体系建设现状、难点与堵点、产业链机会等进行全方位解读。

全国一体化算力网的构建,走向纵深,按下加速键。

“算力是数字经济时代的新型生产力。算力网是支撑数字经济高质量发展的关键基础设施。”国家发改委等部门关于“加快构建全国一体化算力网的实施意见”中,这样表述“算力网”——通过网络连接多源异构、海量泛在算力,实现资源高效调度、设施绿色低碳、算力灵活供给、服务智能随需。

人工智能的发展,为算力网络产业链的上下游企业带来了新的增长空间和发展机会,挑战也随之而至。

中国信通院云计算与大数据研究所所长何宝宏在接受21世纪经济报道记者采访时表示,当前,算力互联互通仍面临三大挑战,包括算力市场分散、调度能力不足、计算框架不同等,需要从顶层统一部署,建立有效的协同机制,并深入产业链细节,构建算力互联网体系结构。

在全国一体化算力网建设中,经政府牵头,运营商、算力中心企业、软硬件厂商等市场主体,立足于自身所长,发挥着不同的作用。在此基础上,加强产业协同,以点成“链”,最终以“链”成网。

算力:加大供给

智算需求指数级增长,算力结构正在发生系统性质变,未来需要大规模的智算支撑。“智算需求每3到4个月翻一番,算力需求非常惊人,智算是未来重点发展方向。”中国信通院副院长魏亮近日表示。

毋庸置疑,算力是新一轮风口。多位受访专家告诉21世纪经济报道记者,算力对于国内厂商来说是“有难度、但不得不应对的挑战”。

像当初建立全国电力网一样,一张覆盖全国的“算力网”的建成也需要各方协同努力。在工信部等有关部门的引领下,各市场主体“各司其职”,目前已经组成了相对完善的算力网络产业链条。

多位算力行业人士在与21世纪经济报道记者的交流中,总结了算力网络的主要市场参与方。

其中,运营商企业作为数字基础设施建设的国家队和主力军,积极投入全国一体化算力体系的建设;算力中心企业是算力基础设施的核心提供者;软件厂商为数据中心提供所需的操作系统、虚拟化软件等基础软件平台以及开发各类应用软件;硬件厂商通过加大研发投入,硬件技术突飞猛进,包括处理器架构的优化、存储技术的革新、网络通信速度的提升等。

简单来说,通用算力、智能算力、超算算力等各类算力资源在国家枢纽节点规模化建设,为全国算力基础提供“蓄水池”,再对这些算力进行调度、编排、运营,以此构成一体化算力网的运行逻辑。

而智算浪潮下,实体的智算中心可谓是“炙手可热”。智算中心作为信息基础设施的重要组成部分,为快速增长的人工智能算力需求提供必不可少的基础支撑。可以说,智算中心是算力的“据点”。

多位参与智算中心建设的从业人员告诉21世纪经济报道记者,搭建智算中心是一个非常庞大且复杂的系统工程。首先需要服务器、芯片、存储设备等,这些是在机柜里的部分;机柜之外还需要液冷等设备。这些均以大量的算力资源和资金实力来支撑,目前主要是三大运营商和互联网公司在深耕。

中国移动已打造一批万卡级、千卡级智算集群,首批12个智算中心节点和智算产品体系在今年4月底发布;中国电信中部智算中心算力集群在今年1月投入运营,中国联通在青岛、芜湖等地建有智算中心。

除此之外,阿里、腾讯等互联网公司等也在构建自己的智算中心,也包括其他少数市场主体,这些即为社会上的“异构算力”。

据21世纪经济报道梳理,三大运营商不约而同地加大了算力上的资本支出,尤其是AI方面,近期招标公告显示中国移动和中国联通都有大规模AI服务器的采购。

网络:以网强算

“国内单个的智算算卡还比不上国际先进水平,就可以通过把算力的规模做大来弥补差距。”新华三路由器产品线总经理汪小勇告诉21世纪经济报道记者,这无疑对网络提出了要求,用高效的网络连接把算力潜能释放出来,即“以网强算”。

据汪小勇透露,国内网络的核心诉求是“无损”,即保证传输数据的完整性,同时也要保证传输速度和效率。这需要在低时延、零丢包、可靠性、负载均衡和确定性网络等方面下功夫。

与算力方面类似,包括华为、浪潮、中兴、新华三等算力服务商也向三大运营商等提供算力网络解决方案;而另一方面,三大运营商自身所具有的基础设施优势在跨区域、长距离运输网络上发挥了重要作用。

一位深耕电子通信行业的券商分析师告诉21世纪经济报道记者,算力网的建设首先需要能够高速互联的网络,其次是能够进行跨数据中心之间的连接。三大运营商恰好两者兼具,成为全国一体化算力网建设的重要一环。

在今年中国移动算力网络大会上,中国移动副总经理高同庆表示,中国移动针对长距离网络运输性能瓶颈,研发了新型高吞吐传输协议,将于今年开启联合验证。同时,中国移动在反谐振空芯光纤技术上取得突破,相比传统传输时延降低33%。

中国电信400G超长距离全光运输技术目前已基本成熟。在近日举办的2024中国光通信高质量发展论坛上,中国电信研究院高级工程师张安旭表示,基于扩展C+L波段技术的超长距400G骨干网逐渐进入规模商用周期,将按节奏分步推进。

中国联通在回复21世纪经济报道的采访时表示,其已在国家枢纽节点间形成超100G高速传输通道,筑牢面向算力网络全光传送底座,公众骨干IP网时延具备行业优势。

调度:协同诉求

我国算力分布地域广、主体多,如果不能将这些资源整合调度,就会导致“算力孤岛”的出现。

目前,我国在算力互联互通体系方面已取得初步进展。

标准制定方面,中国通信标准化协会已启动《算力互联互通能力要求》系列标准研制,包括算力标识、算力调度、业务互通、数据流动等多个方面。

系统创新方面,产业界主要厂商和科研机构围绕算网云操作系统、OGPU、ODPU、等开源项目开展研究,推动产业协同与算力互联网落地应用合作,促进形成繁荣有序的产业生态。

工程实践方面,全国多地已开展算力互联互通实践验证。以北京为例,目前北京算力互联互通试验已通过统一算力标识、算网云操作系统等技术接入近20家算力提供商,在算力互联互通、算力调度、用户友好等试验验证方面取得进展。

但是当前算力互联互通仍面临挑战。据何宝宏分析,一是算力市场分散,用户需汇总市场零散数据,算力感知获取成本高,“找算力”资源成本待降低;二是调度能力不足,“调算力”应用传输待提升,现有编排调度系统和网络条件较难支持大规模数据跨主体、跨地域频繁传输,导致计算效率低;三是计算框架不同,“用算力”架构适配待优化,各厂商算力资源接口、协议不统一,应用部署运行需要针对算力资源开展兼容适配,减缓跨主体部署效率。

想要算力“活”起来,就必须需要一双能够集中调度全国算力资源的“手”。这也是建设全国一体化算力网的关键之处。以国家发改委、工信部牵头的有关政府部门和机构,希望算力网能够像电力网一样成为一项基础性建设服务,各个主体进行分工协作,再统一经营管理。

据21世纪经济报道记者了解,三大运营商掌握丰富的算力资源和网络基础,是算网建设中的“排头兵”,因而也期望承担更重的责任。

算力网络的运营与调度方面,中国移动提出了“算网大脑”概念,包括业务设计、资源感知、资源调度、能力接入等多个板块,支撑起数据快递、训推一体、分时复用等多项业务,并引入“九天”大模型,目前已经在芜湖落地;中国联通建立云网边一体化的算力网络调度平台,对算力资源进行协同安排;中国电信促进云网融合,以数据湖和云网大脑为基础对云网资源进行抽象及编排。

在互联网公司“阵营”里,阿里云、腾讯云这些云服务商背后的互联网公司更多是站在企业的角度,有庞大的算力需求,也有一定的数据保密诉求。这些互联网公司希望能够建立起特定行业或者特定公司的专网,以满足算力调度和传输需要。同时,还存在一些异构算力。这些企业也在自建智算中心,期望能“分一杯羹”。

“大家都有自己的解决方案,形成了多个算力局域网,类似于互联网初期阶段。因此,应该参考互联网的发展思路,构建算力互联网体系结构。”何宝宏建议。

这包括,融合互联、计算、网络等多层面软硬件技术,不断更新迭代算力资源应用方式,加速算力普惠化发展。也要构筑算力产业自主生态,通过开源方式联合产学研用各方参与技术研发与迭代,形成开放的技术生态,助力产业链上下游协同发展。此外,还要基于算力互联网体系架构形成算力大市场,促进算力与各行各业的融合发展,形成可推广、可复制的标杆案例,加速算力互联互通迭代升级,赋能产业数字化转型。

东方证券分析师也认为,算力网络建设的四大方向包括建设公共算力平台、探索算力调度运营、中小企业接入算网和推动“算电一体”新型供能体系建设,这还需要各市场主体的继续努力。

要实现算力的协同调度并不容易,将分散的算力集中起来、统一调度,仍任重道远。