手搓GPU要分几步？创始工程师分享了一个经历

aixo 2024-05-13 12:51:42

2024-05-13 12:51:42

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

项目链接：

计算机视觉研究院专栏

从学习芯片的基础知识开始。

「我花两周时间零经验从头开始构建 GPU，这可比想象的要难多了。」

总有人说老黄的芯片供不应求，大家恨不得去手搓 GPU，现在真的有人试了。

近日，美国一家 web3 开发公司的创始工程师之一 Adam 分享了他「手搓 GPU」成功的经历，引发了网友们的一大片点赞。令人惊讶的是，他仅用两周时间就完成了这一脑力壮举。在 /X 的主题帖子中，进行了直播，一步步带我们回顾了整个过程。

自造 GPU 的实践当然也被公开在上，现在这个项目已有 5300 的 Star 量了。

项目链接：

需要明确的是，该项目目前的节点是在中的芯片布局，最终通过 EDA 软件进行了验证。在这之后，GPU 还将通过 Tiny 7 提交流片，因此注定会在未来几个月内成为物理形态的芯片。

详细列出了设计 GPU 所完成的任务流程。显然，作为一个「从头开始」的项目，在试探性迈出第一步之前就需要进行大量的研究和思考。由于专有技术的主导地位，GPU 是一个相对复杂的研究领域，想想就难，实践起来更难。

手搓 GPU 要分几步？

实际上对于来说，操作比这个步骤还要多，因为他真的没啥技术基础，是从学习 GPU 架构的基础知识开始的。

他首先开始尝试通过学习英伟达的 CUDA 框架来理解 GPU 软件模式，进而理解了用于编写 GPU 程序（称为内核）的相同指令多数据 (SIMD) 编程模式。

有了这些背景，开始深入学习 GPU 的核心元素：从全局内存、计算核心、分层缓存、内存控制器到程序调度。

然后在每个计算核心中，我们还要了解其中的主要单元：包括寄存器、本地 / 共享内存、加载存储单元 (LSU) 、计算单元、调度程序、获取器和解码器。

好了，你已经是一个了解了现代 GPU 架构的人了，下面让我们来手搓一块 GPU 吧。

此处表示，由于复杂性如此之高，我们必须将 GPU 简化到新手能够设计的水平，否则项目就工期爆炸了。

接下来就是创建一个自己的 GPU 架构。我们的目标是创造一个最小的 GPU 来突出 GPU 的核心概念，并消除不必要的复杂性，以便其他人可以更轻松地了解 GPU。

表示，设计自己的 GPU 架构是一项令人难以置信的实践。

他一边学习一边操作，随后决定在设计中强调以下几点：

通过对上述架构的多次迭代，决定专注于通用并行计算 (GPGPU) 功能，面向机器学习（）的更广泛用例。

设计称得上紧跟时代。

这里的一切都是最简单的形式。

第三步是为这块 GPU 编写自定义的汇编语言。

表示，其中一个最关键的因素是他 GPU 实际上可以执行用 SIMD 编程模式编写的内核。为了实现这一点，就必须为 GPU 设计自己的指令集架构（ISA），以便用来编写内核。他制作了自己的 11 条小型指令 ISA，该 ISA 受到 LC4 ISA 的启发。在这之后，他又编写一些简单的矩阵数学内核作为概念证明。