光子计算或将解决超大规模 AI 模型训练中的高能耗与通信延迟问题
要实现超强的AI能力,需要超大规模的模型,要训练超大规模的AI模型,需要数千,甚至上万的GPU协同工作。
这就带来几个问题:更多的GPU造成的高能耗,计算卡与计算卡之间的通信延迟,计算集群与计算集群之间的通信延迟和算力损耗。
每一次开发布会,都会强调其芯片间互联技术。目前它的最新产品是NVL72平台,能够将72个 计算单元连接在一起,其芯片间总传输速度是7Tbps。
那么,如果用光来计算,用光来传输,会怎么样?一家专注于光子计算的公司已经将芯片互连速度提高到,的版本也在路上。它有光子计算单元,有光学芯片封装和传输技术,能够系统化提升整个AI计算集群的计算力,计算效率,并降低功耗。声称,其产品有能力支持万亿级参数的大语言模型训练,并有望帮助AI实验室们探索通用人工智能。
近日,获得了4亿美元的D轮融资,这使它的累计融资金额达到8.5亿美元,公司估值达到44亿美元。领投最新一轮融资的是T. Rowe Price Inc.,参投机构有GV( ), & 。它此前数轮融资的投资者还包括红杉资本, ,HP 、SIP 和 、Spark 。
速度提升数十倍,用光子计算重塑AI算力集群
由 、 和 于2017年创立。 是麻省理工学院量子光子实验室的成员,2012年,他与合作者实现了“可编程纳米光子处理器”(PNP),这是一种基于硅光子学的光学处理器,可以对光进行矩阵变换。
此后,他在《 》和《》等顶尖学术期刊上发表关于光子计算架构可行性文章,其中一篇文章的共同作者是 (首席科学家)。
对于的投资,GV合伙人Erik 表示:“AI的发展速度远超任何人的预期,正在突破数据中心技术的极限。光子计算技术不仅是一次突破,也是未来打造百万节点数据中心的方向。是数据中心光子技术的绝对领导者。”
用光学传输和计算颠覆传统芯片互联
在生成式AI的发展道路上,目前 Law对AI智能的提升起主导作用,随之而来的巨大计算需求推动了AI算力行业的爆炸性增长。
AI模型的训练和推理,背后的核心是数学运算,传统通用计算机可以执行所有这些运算,但对于复杂的问题,它必须将其分解为一系列小任务并依次执行。这种计算架构,使得很多超级计算机的每个计算节点可能一半时间都在等待数据,所以即使单个节点的速度再快,在整个计算集群层面也会有巨大的算力浪费。
互连层是将巨量的CPU和GPU变成一个整体计算集群的关键,互连层越快,数据中心的速度就越快。
目前传统芯片互连的标准,速度最快的是的,它最新的NVL72平台,能够将72个 计算单元连接在一起,一台机架最多可提供1.4 的FP4精度计算性能,而他们之间的算力网络传输速度是7Tbps。
如果用光来完成芯片与芯片,机架与机架,会如何?如果这套系统同时还能完成计算呢?
的光子芯片没有像传统计算那样将矩阵计算分解为一系列通过逻辑门和晶体管的基本操作,而是通过一束光穿过一组小型可配置透镜和传感器来一次性解决整个问题。也就是说它既可以传输数据,也在这个过程中计算了数据,而且它的耗电量比传统芯片更低。
使用光纤来进行芯片与芯片之间的连接,并使用纯光学接口进行路由,每根光纤最多可传输1.6Tbps,每个芯片最多支持256根光纤,相比72个GPU的7Tbps带宽,具有巨大的提升空间。
目前已经推出的光子互连产品,带宽达到,可以使用光学布线的机架可以支持1024个GPU同步工作,它们的新产品可以具备带宽,已经在推出的路上。
超快计算,超快连接,软件兼容
的产品分为光子计算平台(),芯片互连产品( )和适配软件(Idiom)三部分。
是世界首个光子计算平台,每个处理器拥有256个RISC内核,提供的芯片间互连带宽,而且支持PCI-E 4.0标准接口,具有不错的兼容性。
处理器的原理是光通过波导进行计算,而每增加一种颜色的光源,就能相应增加运算速度。例如,如果用红色激光源能进行每秒/100万次的计算,那么增加另一种颜色的激光源就可以将速度加倍,达到200万次,以此类推;而增加光源几乎不需要进行硬件修改。
同样是一个计算核心,当光源种类达到8种,就能提升8倍的计算性能,同时计算效率也达到普通计算核心的2.6倍。当计算核心和光源种类同步提升时,计算性能可以提升数十倍。
为数据中心准备的服务器拥有16个处理器,还有2个AMD EPYC 7002系列主机处理器,3TB NVMe SSD以及6.4Tbps的横向扩展带宽。这个服务器是标准的4U机箱规格,总功率只有3kW。
是一种利用光子进行芯片互连的技术,属于I/O技术的一种。任何超级计算机都由许多小型独立计算机组成,为了发挥性能,它们必须不断相互通信,确保每个核心都知道其他核心的进展,并协调超级计算机设计应对的极其复杂的计算问题。
的技术利用波导(wave guide)而非光纤在一个大的芯片间为各个不同种类的计算核心互连并传输数据,这提供了极高的并行互连带宽。
“我们把光学器件、波导都集成到芯片本身;我们可以在单根光纤的空间内安装40根波导,”说道。“这意味着你有更多的并行通道,达到超高速互连。”
举例,它提供的高带宽I/O可以在单个3D封装中互连高性能CPU、GPU、FPGA、DRAM和ASIC。可以说,它为技术提供了高速的通道,而且能够同时集成光学计算单元和电子学计算单元,从而实现超高的计算性能密度。
而在板卡级别的互连中,它使用光纤,可以让更多的计算节点高效率的互连在一起。这一整套技术,推动芯片内和芯片间的I/O带宽在未来几年实现超过10倍甚至100倍的增长。
它使得百万节点及以上的超级计算机成为可能。而能效合理的大规模计算集群,对于训练万亿参数及以上规模的大语言模型提供了很好的支持。
Idiom
Idiom是一个工作流工具,它可以让基于、或ONNX等框架构建的模型,直接在计算基础设施上使用。无需更改 、或ONNX文件。
此外,它还为开发者提供一系列方便的工具,例如可以自动虚拟化每个 服务器,在多个服务器之间执行分区,为多个不同的用户个性化分配使用的芯片数量。
可以对多个运行在 服务器上的神经网络执行深入视图,可以查看内存使用情况,识别性能瓶颈,帮助开发人员优化他们的AI模型。
它的工具还能对模型执行压缩,量化,知识蒸馏等一系列操作,让模型在保持较小体积的同时,拥有类似于大体积模型的性能。
在客户方面,的创始人表示,它们有两类客户,一类是微软,谷歌,xAI和这样需要算力训练模型的公司,另一类包括半导体公司以及云服务商,它们为这些公司提供算力单元或帮助构建算力中心。目前他们已经拥有多个大规模客户,但是客户名单暂时没有披露。
认为在商业模式上可以学习台积电:“我们不挑客户,也不把自己的名字贴在别人的品牌上。我们为他们提供路线图和平台,帮助它们做大蛋糕。”
AI算力硬件,需要有硬核科研能力的创业者挺身而出
AI对于传统的计算体系提出了新的要求,这才有了的崛起。目前AI算力硬件体系有几个明显需要提升的方向:提升单个计算单元的算力,提升算力单元的集成度、进而提升算力密度,提升算力单元之间的连接速度、从而降低损耗和能耗提高算力集群的规模等。
我们之前介绍的有关AI算力硬件的公司,包括、d-、、Groq等,都在以上这些方向上努力。而是利用光子计算技术,在所有方面都有所提升。
专注于光子计算的公司,不止一家, AI也在今年3月获得了1.75亿美元的C轮融资,它主要利用光在芯片内部和芯片之间进行数据移动,与的类似。中国市场上也有不少在光子计算领域耕耘的公司,只是它们的发展规模相对较小。
目前,中国市场的AI算力硬件公司们,其实面临着弯道超车的机会。这个局面有些像中国的新能源汽车行业:不在旧有的体系架构上追赶国外巨头,而用新技术去满足新需求,建立自己的优势。
一方面AI计算是一个相对较新的领域,海外的公司有领先,但是并没有构建很难逾越的壁垒,另一方面AI是专有计算,有不少开源的计算架构适合AI,例如ASIC。中国公司只要能研发出一些自有的IP,再利用本身就具有的强工程能力,就很有可能开发出至少不逊于海外的算力硬件。例如,华为的AI算力卡在近几年已经获得大量订单,一些头部大厂和创业公司也都有自己的相应产品。
但是,想要在AI算力硬件,尤其是半导体领域有底层的突破性创新,还是需要有一些硬核的科研实力,我们期待更多出身科研院所和高校的创业者挺身而出,在这个领域耕耘。
本文来自微信公众号“阿尔法公社”,作者:发现非凡创业者的,36氪经授权发布。