2024 年政府工作报告:适度超前建设数字基础设施,加快形成全国一体化算力体系

aixo 2024-08-20 08:06:56
算力 2024-08-20 08:06:56

2024年政府工作报告提出,适度超前建设数字基础设施,加快形成全国一体化算力体系。随着“人工智能+”政策的全面推进,我国迎来了智能化高质量发展的崭新时代,承载智能应用的先进算力将成为新质生产力的重要引擎。

在中国电子首席科学家、中国电子云总工程师朱国平看来,新质算力基础设施就是在云原生叠加AI原生的设计理念下,将算力、数据、先进存储和安全进行深度融合,用于高效承载数据和人工智能的新型基础设施,同时提供基于AI安全的可信数据空间,以及以数据驱动的AI原生应用的开发范式。

聚焦政企和关键行业发展新质生产力的要求,中国电子正在打造智算芯片、智算操作系统、智算服务器和一体化算力平台,建设服务金融、政务和央企等关键基础行业的新质算力基础设施。

云原生+AI原生 构建新质算力基础设施核心能力

“云原生+AI原生”是新质算力基础设施的要义所在,也是中国电子云(中国电子旗下唯一云计算品牌)构建技术体系的核心。

其中,云原生是中国电子云的起点。曾经,云计算有两条主要的技术路线,一类是基于进行优化和改造,一类是基于容器化、微服务、等技术的云原生。在中国电子云成立的2020年,云原生已经被产业公认为最佳技术路线。因此,中国电子云从一出生就选择了更加先进的云计算技术,形成了所谓的“后发优势”。正是基于云原生技术自研的国产化企业级云平台,亦是中国电子构建新质算力基础设施的载体。

在研发过程中,中国电子云发现,不同领域用户早期云平台的底层标准不统一,在业务迁移上云的过程中需要兼容不同的芯片、服务器和操作系统,且上层还要支撑各种创新应用的落地。鉴于用户实际部署的难题和云计算产业的最新趋势,在研发之初就坚定基于云原生技术,实现“一云多芯”的能力,不仅自研了分布式云原生云操作系统,还在一个资源池内部支持多种异构的CPU,从而有效屏蔽硬件差异,助力应用无感知快速上云。

而AI原生,则是在系统设计阶段就充分考虑如何支持AI负载的训练和计算需求,将AI所需的服务和优化内置到系统中,客户可以直接基于训练AI模型或运行AI应用,无须再进行基础设施的改造或投入。

比如在计算架构上,采用了与云平台“一云多芯”一脉相承的“一云多智芯”架构,与国内外几乎所有主流的人工智能加速芯片进行了适配和联调。在网络上,支持、RoCE等AI数据中心常用的网络解决方案。在存储方面,以分布式存储系统适应AI负载不断增长的数据量和复杂性,并融合了闪存技术和混合闪存技术,推出了针对人工智能训练场景的全闪存储,以及针对人工智能推理和归档场景的混闪存储。

从“想到”到“做到” 打磨技术创新和工程实现能力

虽然“云原生”“一云多智芯”“AI原生”这些概念在命名上非常简洁,但“想到”和“做到”之间隔着大量的设计、适配和调优工作,考验着中国电子云团队的技术创新和工程实现能力。

记者在采访中了解到,在构建并融合云原生与AI原生的过程中,中国电子云团队有三条经验。

一是基于严谨的测试持续优化系统。比如在建设北京亦庄人工智能公共算力平台的过程中,中国电子云围绕提升模型训练效率的目标,对全路径的数据进行测试,检验哪个位置的数据耗时最长,有针对性地进行优化。

二是提升对客户需求的分析和响应能力。中国电子云团队注意到,大模型训练往往耗时几个月,必须提升网络面对中断或意外事件的健壮性。因此,中国电子云构建了快速生成(保存检查点)的能力,即便模型训练中断,也能够基于接续训练。

三是构建全流程改造能力。由于的算力、存储、数据系统均为自研,因此不需要第三方提供接口来进行数据采集,也无须委托第三方进行优化,在调优和迭代上更加高效可控。

目前,中国电子云累计建设超过3300P先进智算算力,包括北京亦庄人工智能公共算力平台的3000P算力、石家庄人工智能计算中心的100P算力、位于武汉的中国电子云可信智算中心的100P算力,以及中国电子信创云基地的100P算力。中国电子云不仅为以上智算中心或智算平台提供一体化的算力平台,也尝试参与运营,与当地政府一起理清如何高效供给和利用算力等关键课题。

“在亦庄3000P算力的建设过程中,我们在大规模的基础设施上对产品进行了验证、打磨和优化。客户提出的要求比较高,促使我们不断迭代和更新产品。这是建设过程中的最佳实践,对团队的能力提升是巨大的。”朱国平告诉记者。

高效、安全双轮驱动 打造稳定可靠的新质数字底座

培育和发展新质生产力,需要处理好发展与安全的关系。习近平总书记强调,要围绕发展新质生产力布局产业链,提升产业链供应链韧性和安全水平,保证产业体系自主可控、安全可靠。

中国电子云在创立之初,就兼顾了高效和安全的内在要求。其母公司中国电子作为网信产业国家队,不仅攻克了计算机CPU和操作系统关键核心技术,也形成了“系统优化、行业定制”的发展模式。首先,中国电子云基于中国电子完备的自主计算产业体系,以安全为先,包括技术安全、架构安全和长期安全服务。其次,中国电子云采用了“公有云服务+专属公有云产品”的运营模式,兼顾了公有云的高效便捷和私有云的安全可控。最后,中国电子云硬件上支持x86架构、异构计算架构,软件上与合作伙伴广泛适配并拥抱开源。

基于差异化的能力,在已经成为红海市场的云计算领域,中国电子云捕捉到了三个市场机遇。一是面向政企和关键行业提供数字基础设施,此类客户普遍对数据安全有着极高的要求,无法将业务部署在公有云,存在大量专属云的市场机会。二是抓住信创改造和升级带来的市场机会。三是人工智能高速发展带来的智算中心系列产品的机会。“因此我们的产品策略有两个,一是以信创为根本,二是‘all in AI’。”朱国平表示。

凭借高安全、高性能、高弹性的数字底座,中国电子云受到中央企业和关键行业用户的青睐,成功承建了一批央企云平台和行业公共服务基础设施。

在关键行业领域,基于建设打造的南方电网调度云异地灾备平台,按照“两地三中心+按需建设省级分中心”模式,构建一体化全栈云平台,有力支撑了新型电力系统建设,保障人民群众用电安全。中国电子云与华电电科院、国电南自华盾公司合作开发的国内首个行业级自主可控燃机智慧运维云平台“中国华电燃机智慧云”采用“1+N”的云边协同架构,通过使用燃机智慧运维云平台,仅运行优化一个模块,电厂一年就可以节省50万到100万元。

在信创改造领域,中国电子云与金电云在金融信创领域密切合作,建设了银行电子凭证互联互通平台,以解决银行电子凭证领域存在的机构多头连接、接口重复开发、系统重复建设等痛点难点。双方按照金融云等级标准,科学布局“多地多中心”,构建绿色先进高效的算力体系和一云多芯云平台,为全国范围内的中小型金融机构提供涵盖IaaS、PaaS、SaaS的专业化云服务。截至2023年11月,该互联互通平台累计完成业务转接总量超276万笔。

AI+未来 紧抓计算产业最大变量

人工智能被视为发展新质生产力的主要阵地。发展人工智能,已经成为央企和关键行业转型升级、提升核心竞争力的要求。接下来,中国电子云将以为抓手,以构建新质算力基础设施为目标,持续提升和完善智算交付能力。

“AI会无处不在,这是计算产业最大的变化,也是民众生活的最大变量。新质算力基础设施要同时满足人工智能发展和数据要素流通。目前,我们已经具备了赋能AI和数据要素的能力,会将为客户提供一体化的AI服务作为接下来的努力方向。”朱国平表示。

不过,采访中记者了解到,在推动新质算力基础设施的过程中,中国电子云也面临一些产业共性的难点。一是算力的获取。一方面,美国对英伟达向中国出口产品的限制,导致高端算力芯片的获取更加困难;另一方面,国产算力芯片的性能还有待提升。二是基础设施需要进一步完善,尤其是算力基础设施的大规模互联和测试,还缺乏成规模的实际部署案例。三是AI软件工具链不够成熟,相比英伟达CUDA等国际领先企业的生态布局,国内需要加强软件和应用生态培育。

“发展新质生产力需强化企业科技创新主体地位。”围绕企业如何践行新质生产力,以及全社会如何更好地支持企业发展新质生产力,朱国平提了三个建议,一是企业践行新质生产力不能脱离自身的实际情况,要结合业务实践,通过AI等新技术的赋能,优先将原有业务做得更好。二是要建设高质量的数据集,人工智能大模型的开发和训练需要高质量语料库和基础科学数据集,各行各业要运用AI等新兴技术的能力,也需要高质量动态数据集的支持,这需要有关部门及整个产业链的共同努力。三是建设更加包容的创新环境,创新是逐步积累、逐步改进的过程,包容的环境能够鼓励企业人才勇于创新,更好地激发企业的创新活力。(记者 张心怡 连晓东)