北大等研究人员研发基于碳纳米管的张量处理单元,助力 AI 算法节能运行

aixo 2024-08-27 02:27:02
大模型 2024-08-27 02:27:02

事实证明,人工智能 (AI) 和机器学习工具在处理需要分析数据并做出准确预测的各种任务方面非常有效。尽管这些工具具有诸多优势,但它们对计算的需求很大,并且在现有处理单元上运行时会消耗大量能源。

北京大学和中国其他研究所的研究人员最近开发出一种基于碳纳米管的张量处理单元 (TPU),该单元前景十分光明,可用于以更节能的方式运行 AI 算法。《自然电子学》杂志发表的一篇论文介绍了这种基于碳纳米管的张量处理芯片,这可能是开发下一代芯片道路上的一项关键突破。

“我们成功研发出全球首款基于碳纳米管的张量处理器芯片(TPU),”论文共同作者张志勇(音译)告诉Tech 。“我们受到了谷歌TPU和AI应用快速发展的启发。从到Sora,人工智能正在迎来一场新的革命,但传统的硅基半导体技术越来越无法满足海量数据的处理需求。面对这一全球挑战,我们找到了解决方案。”

在计算机科学中,收缩阵列是一种处理器网络,可以有节奏地计算数据并允许数据自由通过,类似于血液在人体中的流动方式。张和他的同事开发了一种新的高效收缩阵列架构,使用碳纳米管晶体管,场效应晶体管 (FET),其通道由碳纳米管制成,而不是传统的半导体。基于他们开发的这种新架构,他们创造了迄今为止报道的世界上第一个基于碳纳米管的 TPU。

“该芯片由 3,000 个碳纳米管 场效应晶体管组成,以 3*3 处理单元 (PE) 的形式组织起来,”张教授解释道。“这 9 个 PE 构成一个脉动阵列架构,可以并行执行两位整数卷积和矩阵乘法运算。”

张和他的同事提出的紧耦合架构支持收缩输入数据的流动。通过该架构的数据流动减少了静态随机存取存储器 (SRAM) 组件的读写操作,从而显著节省了能源。

“每个 PE 都从其上游邻居(上和左)接收数据,独立计算其内部的部分结果,并将其传递到下游(右和下),”张说。“每个 PE 都设计用于 2 位 MAC 和有符号和无符号整数的矩阵乘法。结合收缩数据流,CNT TPU 可以加速 NN 应用中的卷积运算。”

该团队提出的系统架构经过精心设计,可加速人工神经网络执行的张量运算,轻松在整数卷积和矩阵乘法之间切换。他们基于此架构开发的张量处理芯片可能成为基于低维电子学的新型高性能集成电路开发的重要里程碑。

“基于我们的碳基张量处理器芯片,我们构建了一个五层的卷积神经网络,可以执行图像识别任务,准确率高达88%,功耗仅为295μW,这是所有新型卷积加速硬件技术中功耗最低的。”张教授说。

“系统模拟结果表明,采用180纳米技术节点的碳基晶体管频率可以达到,能效超过1TOPS/w,比同技术节点的其他器件技术具有明显优势。”

总体而言,研究人员进行的初步模拟和测试结果凸显了碳基 TPU 的潜力,表明它可能非常适合运行基于机器学习的计算模型。未来,他们的芯片可以比现有的基于半导体的设备表现出更大的计算能力,并且更节能。

该研究团队的努力最终将有助于加速卷积神经网络的运行,同时降低其功耗。与此同时,张和他的同事计划进一步提高芯片的性能、能效和可扩展性。

张补充道:“例如,可以通过使用排列整齐的半导体 CNT 作为通道材料、减小晶体管尺寸、增加 PE 的位数或实现 CMOS 逻辑等方式进一步提高这种方法的性能和能源效率。”

“CNT TPU 还可能在硅晶圆厂的 BEOL 中制造,以实现三维集成:即底部是硅 CPU,顶部是 CNT TPU 作为协处理器。此外,可以研究多层 CNT FET 的 3D 单片集成,以获得降低延迟和增加带宽的潜在优势。”