AI 时代数据中心散热难题:科技公司为何纷纷选择水冷?
给数据中心散热这事,太难了。
在AI时代,科技公司们除了缺显卡以外,还非常缺水。
在去年谷歌发布的环境报告里有一项离谱的数据,这家巨头在2022 年总共消耗了 56 亿加仑的水,其中约52亿加仑用于公司的数据中心,比往年增加了20%。
不过这些水并没有什么特殊的用途,单纯就是为了给数据中心散热。
在过去,数据中心都是靠风扇、空调降温,可机器一多,科技公司们发现开着空调实在是太耗电了,于是想到了用水来降温。
比起用电,水冷的价格明显便宜了不少,而且在水资源丰富的地方,水电价格也很便宜。这就是为什么苹果、阿里、腾讯、华为等企业都跑到了贵州造数据中心。
然而随着近几年训练大模型的需求越来越多,科技巨头们发现水也不够用了。据一篇论文数据显示,仅GPT-3的一次训练就要消耗了近70万升的水,相当于填满一个核反应堆。不仅如此,用户每向提问约50个问题,又得要消耗500ml水降温。
其实说到底,数据中心需要的是散热手段,不管水冷还是风冷,能让数据中心正常维持运转就行。
于是有一家公司突发奇想,如果能在极其寒冷的太空建一个数据中心,那完全不用担心散热问题。
不靠电,不靠水,全靠太阳能
Lumen Orbit是一家总部位于美国西雅图的初创公司,他们的主要业务是在太空中处理数据。
按照Lumen Orbit的规划,他们计划发射300颗卫星,部署在近地轨道之下,并构建成一个类似星链的网络,以此构建一组在轨地面基站(in-orbit )。
不过他们并不提供网络,而是为用户提供经过处理的数据,你可以简单理解成在太空里的“移动硬盘”。
不过Lumen Orbit的计划远远不止于此,他们希望将AI超级计算机搬到太空,以此实现无限算力和无限空间的完美结合。
根据在其白皮书中透露的信息,他们计划在明年发射首颗卫星,这颗卫星上将搭载比目前送上太空的任何GPU都强大100倍的计算单元,未来他们也将借此发力太空云计算和边缘计算业务。
为什么要在太空造数据中心,最重要的还是散热问题。
在外太空,平均环境温度约为 - 270°C,如果能利用好太空的低温环境,设计更高效的散热系统,那么远比常规使用电能的冷却架构更简单、更高效。
其次,太空里可以获取24小时高强度的太阳能。
根据Lumen Orbit提供的数据,美国地面太阳能发电场的平均容量系数仅为 24%,相比之下,该公司提出的太空太阳能电池阵列的容量系数大于 95%,加上没有季节或天气的影响。
因此,太空中的太阳能电池阵列产生的能量将是地球上相同阵列的 5 倍以上。
在太空发射成本不断下降的前提下,该项目的长期成本并不会比地面数据中心高太多。
最后,Lumen Orbit谈到了太空的可扩展性以及设备的寿命和稳定性。在这些显著的优势下,该计划可以有效解决地球面临的一系列资源难题,如电力紧缺、水资源短缺和环境污染。
除了Lumen Orbit提到的几点优势以外,在近地轨道资源即将占满的情况下,低轨卫星产生的数据量也将越来越大,而留给卫星进行数据传播的时间窗口却是固定不变的,这就意味着一些数据很难及时传回地面,那么在太空建立数据中心也有它的必要性。
因此在Lumen Orbit之外,还有几家公司也在研究将数据中心送入轨道,这当中也包括国内的商业航天企业。
GPU上太空,并不容易
目前,Lumen Orbit已拿下知名初创投资机构Y 的投资,并且在今年完成240万美元融资,万事俱备,只欠发射。
不过资本定义下的商业航天风口其实还没到来,Lumen Orbit的计划里还是存在不少问题。
以国内某从事类似项目的团队作为对比,他们在接受媒体采访时曾提到,把数据中心建到太空去至少需要高达10亿元人民币的造价。
而从目前网上报道的消息可以看出来,Lumen Orbit目前的资金投入包括配套工厂建造、大型GPU集群研发以及其他项目,后续资金能否支持卫星发射还得打个问号。
回到太空,由于处于真空环境,因此目前的航天器都是无法通过热传导和热对流与外界交换能量,只能通过热辐射,而热辐射散热的速度很慢,所以我们可以看到空间上都是装着巨大的散热片。
从Lumen Orbit的介绍来看,他们也计划利用散热器解决卫星自身的问题,但由于未公布散热器的配置,成本效益还不明显。
目前地面数据中心需要定期进行物理维护,而太空中的数据中心维护成本更高,即便是机器人或自动化系统进行维护也需要人工进行操作,这一部分的成本暂时还难以解决。
最后就是太空中的辐射防护,电子元器件会受到单粒子效应( Event , SEE)和总剂量效应(Total Dose, TID),长期下来会导致器件性能逐步下降。尤其对于当前的先进工艺,很难说在太空中能有优秀的发挥。
总之,在太空造数据中心的想法很好,但和其他商业太空项目一样,技术过于复杂、回报周期过长,倒不如海底、极地等地方更现实一点。