Transformer架构的演变与大脑注意力机制的启示:从神经元自组装到AI信息处理

AI世纪 2025-01-20 13:06:17
大模型 2025-01-20 13:06:17

架构的过去和现在:人类大脑在有限的资源条件下,通过神经元回路的自组装和微调,实现了高效的信息处理。为了优化信息处理,大脑发展了高效的信息选择和投注机制——注意力,而非依赖超大容量的处理能力。随着我们对大脑认知机制的深入了解以及计算机科学的进步,研究人员尝试通过算法量化大脑的认知功能,将人类的思维模式映射到人工智能上。

是一种基于注意力机制的神经网络架构,由 Brain 团队于2017 年在论文《 Is All You Need》中提出。通过摒弃传统循环结构, 利用自注意力机制并行处理序列元素,显著提升了训练速度和长距离依赖建模能力。 架构的灵活性,使其成为众多非自然语言处理领域先进模型构建的基础框架,展现出广阔的应用前景,包括但不限于能够将不同模态的数据映射到统一的特征表示空间,促进跨模态应用发展。目前,人工智能大模型的进化主要依赖于人工版本的更新。而随着技术的发展,研究人员正在探索自我进化的模型,使其能够自主完善和学习由自身生成的经验,从而推动人工智能向更高级的智能发展。当前AI 的局限性或在于其学习效率的低下,而非数据不足。真正的智能不仅是数据量的堆积,而是在于对信息的压缩和提炼,类似于通过总结第一性原理的方式获取更深层次的智能。

架构的未来:尽管 凭借着诸多优势成为如今的主流架构,但其并非尽善尽美,仍有无法避免的局限性,例如计算复杂度高和计算成本高。目前对 架构的未来,主要有两条道路,一是被更优秀的全新架构替代,二是在原有架构基础上通过优化注意力机制等方式进行升级,这两条道路都是通往计算复杂度更低、计算成本更低、效率更高这个目标。目前研究人员正在积极探索可能取代或增强 的全新架构,并提出了数个潜在的替代架构,例如、Mamba、RWKV、Hyena、线性注意力机制等。无论选择哪条路径,最终的目标都是实现更高的性能、更强的泛化能力、更低的资源消耗,以推动AI 在更多实际场景中的应用,同时让其更加可持续的普惠化的发展。

投资建议:短期来看, 架构依然是大模型的主流,建议重点关注基础设施领域的公司,如英伟达、海光信息、寒武纪、协创数据、英维克、中科曙光、浪潮信息、润泽科技、欧陆通、曙光数创等,同时持续关注全球各大模型厂商、学界的创新进展。

风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支持不及预期风险;全球宏观经济风险。