日本发布超级计算机“-LLM”加速密集矩阵乘法库
日本的一组研究人员利用日本理化研究所的超级计算机富岳()发布了“-LLM”。
为了在上训练大型语言模型,研究人员开发了分布式训练方法,包括将深度学习框架-移植到,以优化在上的性能。他们加速了的密集矩阵乘法库,结合三种并行化技术优化了的通信性能,并使用独立定制互连网络Tofu D 加速集体通信库。
RIKEN‘s ©RIKEN
-LLM具有130亿个参数,比日本广泛开发的70亿个参数模型更大。-LLM增强了日语能力,在日本MT-Bench上的平均得分为5.5分,在使用日本生成的原始数据训练的开放模型中表现最高。特别是人文社科的基准成绩达到了9.18分。
-LLM是在收集的专有日语数据、英语数据和其他数据上进行训练的。-LLM的源代码可以在上获得,模型可以在 Face上获得。只要用户遵守许可,-LLM可以用于研究和商业目的。
未来,随着更多的研究人员和工程师参与到模型的改进和应用中来,培训的效率将会提高,从而引领下一代创新研究和商业应用,例如科学模拟与生成式人工智能的联动,以及拥有数千个人工智能的虚拟社区的社会模拟。