日本发布超级计算机“-LLM”加速密集矩阵乘法库

aixo 2024-05-14 05:45:47

2024-05-14 05:45:47

日本的一组研究人员利用日本理化研究所的超级计算机富岳()发布了“-LLM”。

为了在上训练大型语言模型，研究人员开发了分布式训练方法，包括将深度学习框架-移植到，以优化在上的性能。他们加速了的密集矩阵乘法库，结合三种并行化技术优化了的通信性能，并使用独立定制互连网络Tofu D 加速集体通信库。

RIKEN‘s ©RIKEN

-LLM具有130亿个参数，比日本广泛开发的70亿个参数模型更大。-LLM增强了日语能力，在日本MT-Bench上的平均得分为5.5分，在使用日本生成的原始数据训练的开放模型中表现最高。特别是人文社科的基准成绩达到了9.18分。

-LLM是在收集的专有日语数据、英语数据和其他数据上进行训练的。-LLM的源代码可以在上获得，模型可以在 Face上获得。只要用户遵守许可，-LLM可以用于研究和商业目的。

未来，随着更多的研究人员和工程师参与到模型的改进和应用中来，培训的效率将会提高，从而引领下一代创新研究和商业应用，例如科学模拟与生成式人工智能的联动，以及拥有数千个人工智能的虚拟社区的社会模拟。

LLM