性能对标Llama 3,算力消耗仅1/19!源2.0-M32大幅提升模算效率
智东西5月28日报道,今天,浪潮信息发布基于MoE的源2.0-M32开源大模型,全面开源且支持免费可商用,全系列模型参数和代码均可免费下载使用。
源2.0-M32采用基于注意力机制的门控网络技术,包含32个专家模块,参数量为400亿,模型运行时激活参数为37亿。同时,该模型在模型性能全面对标700亿参数规模Llama 3的同时,训练、微调、推理过程中的算力开销显著低于业界的头部开源模型Llama3-70B,源2.0-M32单Token下训练和推理所需的算力资源仅为Llama3-70B的1/19。
在模型推理运行阶段,源2.0-M32处理每Token所需算力为7.4GFLOPs,Llama3-70B所需算力为140GFLOPs。
在模型微调训练阶段,对1万条平均长度为1024 Token的样本进行全量微调,M32消耗算力为0.0026PD(PetaFLOPs/s-day),Llama3-70B为0.05PD。
可以看出,源2.0-M32正在提升模型性能与降低算力消耗上齐头并进,成为浪潮信息服务于终端客户的新解法。
当下Scaling Law成为通往通用人工智能的一条重要路径,但对于大模型落地的终端玩家而言,背后居高不下的算力开销是一大痛点。这一背景下,从2021年发布源1.0大模型至今,浪潮信息通过算法架构创新,已经为企业找到了一条更为经济、高效的大模型落地普惠之路。
源2.0-M32发布当天,智东西等媒体与浪潮信息人工智能首席科学家吴韶华、浪潮信息人工智能与高性能应用软件部AI软件架构师Allen Wang进行了深入交流,从当下大模型产业发展的企业痛点出发,找到浪潮信息当前的技术创新路径,了解到其一以贯之坚持全面开放开源在当下的重要性。
论文地址:https://github.com/IEIT-Yuan/Yuan2.0-M32/blob/main/docs/Paper.pdf
一、37亿激活参数性能对标Llama 3,所耗算力仅为Llama 3的1/19
在源2.0系列大模型的基础上,浪潮信息通过算法结构创新,使得源2.0-M32在业界主流评测中性能可以全面对标700亿参数的Llama 3大模型。
在性能方面,M32在数学竞赛、基础数学、代码生成、综合知识能力、科学推理方面与Llama-3-70B不相上下。
另一方面,企业在落地大模型应用方面,关键衡量标准就是算力消耗,源2.0-M32的表现已经远超Llama3-70B。吴韶华提到,将平均精度和算力进行关联,就可以衡量模型在单位Token上面的能力。模型算力效率越高,就意味着企业单位算力投入时获得的精度回报越高。
其中,源2.0-M32每Token算力下的平均精度是10.7,Llama-3-70B的为0.57;单位Token下源2.0-M32的算力需求仅为Llama-3-70B的1/19,单Token算力下平均精度为18.8倍。简单来说就是,源2.0-M32与Llama-3-70B的模型性能相近,但企业可以用更少的算力投入使得模型实现更高的精度。
这背后的技术要点,就是算法结构、数据获取、算力方面的创新。
在算法层面,浪潮信息创新提出了新型的算法结构:基于注意力机制的门控网络(Attention Router),可以使得MoE模型中专家协同处理数据的能力提升。
MoE中专家间有天然的协同性,其过程是将Token与每个专家的特征向量进行点积,从而找到点积结果最大的几位专家,由多个专家协同参与计算。但实际过程中,由于传统门控网络忽视了专家间的协同关系,无法准确、全面地根据输入样本与专家间的关联性进行选择,导致模型精度表现不佳。
浪潮信息为每个专家提供了三个特征向量来构建专家之间的关系,然后将其引入到传统调度策略中,MoE模型在最终选择专家模型时,就会同时考虑绝对点积数值以及专家间的协同性,找到自身属性更为相似、关联度更高的专家。
吴韶华称,这种思路可以和MoE模型的技术路径互为补充,在网络结构方面提升模型的精度。
此外,源2.0-M32沿用了浪潮信息此前在源2.0系列中采用的新型注意力算法结构局部注意力过滤增强机制(LFA,Localized Filtering-based Attention),帮助大模型同时掌握输入内容的全局性和局部性关系,从而更准确的对自然语言的关联语义进行理解。
在数据层面,相比于源2.0系列,源2.0-M32的训练Token数量从300B提升至2000B,这部分提升主要来自代码数据、互联网语料、专业领域数据以及合成数据。M32的训练数据中代码数据占比达到47.5%,包含619类代码以及1800亿Token的中文代码数据,以及增加了超过1000万条的合成数据。吴韶华透露,大幅提升代码训练数据的原因是,代码数据中包含推理以及逻辑,可以助力大模型完成推理等。
在算力方面,源2.0-M32沿用流水并行的方法,综合运用流水线并行+数据并行的策略,显著降低了大模型对芯片间P2P带宽的需求,为硬件差异较大训练环境提供了一种高性能的训练方法。针对MoE模型的稀疏专家计算,采用合并矩阵乘法的方法,大幅提升模算效率。
二、大模型应用即将铺开,MoE兼顾成本降低与模型性能提升
当下,大模型的发展进入应用阶段,各类创新的应用实践进入各行各业,并在具体的业务场景生根发芽。
但企业想要用好、用上大模型并不容易,一方面要追求大模型精度高才能真正在业务流程中发挥作用,另一方面也关注大模型的落地成本低才能有大规模应用的可能,这也是当下制约企业进行大模型应用开发、普及的两大难题。
从模型精度方面来看,其智能水平仍在不断突破极限,大模型到底能有多聪明、为企业的业务带来多大助力在目前仍然是一个未知数,但当下大模型能力已经呈现出诸多可用性。
更为关键的是落地成本问题。以当下开源大模型的代表Llama-3-70B为例,其平均精度已经达到79.25,在数学、代码等方面的表现均名列前茅,足以满足当下企业真实业务场景的需求。然而在算力开销方面,其模型算力效率并仅为0.57,这意味着有大量的算力被浪费。在算力资源需求量居高不下的背景,经根据测算,训练一个5000亿参数规模的Dense模型,企业的基础算力设施投入约10亿美元,无故障运行21个月,电费约5.3亿元,其背后的算力开销非一般企业可以承载。
因此,提升模型算力效率,兼顾更低的算力消耗与更高的模型能力是当下大模型普惠的关键。
对于当前国内大模型玩家更是如此,从2022年底ChatGPT问世AI时代迎来新发展纪元至今,国内底层大模型技术的发展一直落后于国外,但应用场景多元、丰富正是国内AI产业的独特优势,为大模型落地应用提供了土壤。吴韶华谈道,应用是中国未来的大模型发展方向,大模型将成为赋能企业生产力工具的重要支撑。
在这一过程中,企业需要不断微调大模型以与自己的业务场景相适配,且需要持续运行大模型以真正实现业务场景的重塑。因此,微调、运行大模型的效率和成本直接决定了大模型的应用水平和普惠程度。
MoE模型的技术路线被更多大模型玩家选择。吴韶华称,固定每个Token算力不变的情况下,可以获得更大参数量的模型,这也是业界出现大量MoE模型的原因。
对于浪潮信息而言,也同样如此。
源2.0-M32是浪潮信息在大模型领域持续耕耘的最新成果,也是他们关注于企业级应用落地的探索思考。基于MoE模型与算法结构创新,在持续提升模型能力的同时,降低算力消耗。
三、全面开源开放,浪潮信息筑起全套开发体系底座
作为较早开始布局大模型算法开发的厂商,浪潮信息通过算法架构的创新,探索并实现大模型更高效的智能涌现,在切实解决企业痛点方面已经有所成效。
浪潮信息早在2021年就率先发布参数规模达2457亿的源1.0模型,训练算力效率为44.8%,远超GPT-3 21.3%的训练算力效率。浪潮信息也基于自身的大模型系统调优经验,成功帮助客户将千亿参数规模的自然语言AI单体大模型的训练算力效率提升达到53.5%。
去年11月,源2.0模型系列发布,浪潮信息继续在算法结构、数据获取、训练方法进行了创新升级,进一步提升了大模型能力,同时采用非均匀流水并行方法,显著降低了大模型对芯片间P2P带宽的需求,满足不同企业的多元化训练环境。
如今,源2.0-M32再次下探企业大模型落地的门槛,将企业最关注的模型性能与推理成本顾虑一网打尽。
可以看出,从源1.0、源2.0到源2.0-M32,浪潮信息始终坚持全面开源开放,一直朝着为企业找到更为经济、高效的解决方案而努力。
一脉相承的是,浪潮信息已经将这些模型及工具链全面集成,打造了面向企业开发部署生成式AI应用的端到端开发平台“元脑企智”EPAI(Enterprise Platform of AI),逐渐将企业在大模型浪潮下的“后顾之忧”一个个消灭掉。
EPAI作为企业AI大模型落地应用的高效、易用、安全的端到端开发平台,提供了数据准备、模型训练、知识检索、应用框架等系列工具,支持企业调度多元算力和多模算法,大幅加速其高效开发部署生成式AI应用、打造智能生产力。
从全面开源大模型到构建开发生态,开源开放可以说是浪潮信息的底色,吴韶华谈道,开源一方面可以让浪潮信息看到更多开发者的需求,进而转化成其模型能力提升的支撑,同时,更多开发者的参与可以形成催化效应,实现生态建设的正向迭代,浪潮信息一直在开源中受益,后续也将坚定开源战略。
大模型深入千行百业的趋势已经势不可挡,浪潮信息作为算力提供方与企业的联系更为紧密,且在自身的业务积累与B端客户的交流中深刻感知到了大模型落地的痛点,在开源开放生态战略与技术创新的指引下,成为大模型普惠的重要见证者与引领者。
结语:浪潮信息的开源生态+1,AI赋能千行百业更进一步
在大模型发展的浪潮中,浪潮信息扮演着尤为关键的角色,既包括底层算力提供者,还是基础大模型的重要玩家。这两大角色成为连接大模型与终端企业的重要支撑,在为企业提供所需算力的同时,将完整的工具链进一步释放给企业,今天源2.0-M32的发布也使得其模型布局更加完整。
对于不同的企业而言,其对于大模型的需求不尽相同,不论是模型性能还是已具备的算力基础设施的硬件、软件能力,因此,大模型单纯提高自身的性能能力无法充分加速大模型的落地应用,在算力供应紧缺的当下,企业对模型微调、运行背后的成本与模型性能的关注度几乎持平。
在这背后,浪潮信息从大模型的底层架构创新,真正为企业构建起了高效可用的技术平台,并通过开源开放的生态建设加速AI赋能千行百业。