英伟达推出 Llama-3.1-Nemotron-51B AI 模型，创新使用 NAS 方法

aixo 2024-09-25 16:03:28

2024-09-25 16:03:28

9 月 25 日消息，英伟达 9 月 23 日发布博文，宣布推出 Llama-3.1--51B AI 模型，源自 Meta 公司的 Llama-3.1-70B，不过创新使用神经架构搜索（NAS）方法，建立了一个高度准确和高效的模型。

Llama-3.1--51B 简介

Llama-3.1--51B AI 模型将于 Meta 公司 2024 年 7 月发布的 Llama-3.1-70B 模型，共有 510 亿参数。

该 AI 模型主要采用了神经架构搜索（NAS）技术微调，平衡性能和效率，在高工作负荷下，只需要一片 H100 GPU 即可运行，大大降低了内存消耗、计算复杂性以及与运行此类大型模型相关的成本。

英伟达认为这种方式在保持了出色的精度前提下，显著降低了内存占用、内存带宽和 FLOPs，并证明可以在创建另一个更小、更快的变体来加以推广。

Llama-3.1--51B 性能

相比较 Meta 的 Llama-3.1-70B 模型，Llama-3.1--51B 在保持了几乎相同的精度情况下，推理速度提高了 2.2 倍。

准确率能效

MT Bench MMLU Text (128/1024) / RAG (2048/128) Llama-3.1- -51B- .9980.2% Llama 3.1-70B- .9381.66% Llama 3.1-70B- ( GPU)—— Llama 3-70B8.9480.17%效率和性能方面的突破

开发 LLM 过程中面临的主要挑战之一是如何平衡精度与计算效率。许多大规模模型都能提供最先进的结果，但却需要耗费大量的硬件和能源资源，这限制了它们的适用性。

英伟达的新模型在这两个相互竞争的因素之间取得了微妙的平衡。

Llama-3.1--51B 实现了令人印象深刻的精度与效率权衡，减少了内存带宽，降低了每秒浮点运算次数 (FLOP)，并减少了总体内存占用，同时不影响模型执行推理、总结和语言生成等复杂任务的能力。

改进工作量管理，提高成本效益

Llama-3.1--51B 的一个突出特点是能够在单个 GPU 上管理更大的工作负载。该型号允许开发人员在更具成本效益的环境中部署高性能 LLMs，在一个 H100 设备上运行以前需要多个 GPU 才能完成的任务。

Llama-3.1--51B 模型还减少了内存占用，在推理过程中可以在单个 GPU 上运行 4 倍以上的工作负载，从而带来了一系列新的机遇。

架构优化：成功的关键

Llama-3.1--51B 的成功主要归功于一种新颖的结构优化方法。传统上，LLMs 是使用相同的块构建的，这些块在整个模型中重复出现。

这虽然简化了构建过程，但也带来了效率低下的问题，特别是在内存和计算成本方面。

英伟达通过采用 NAS 技术来优化推理模型，从而解决了这些问题。该团队采用了分块蒸馏过程，即训练更小、更高效的学生模型（ model），以模仿更大的教师模型（ model）的功能。

通过完善这些学生模型并评估其性能，英伟达开发出了 Llama-3.1 版本，在大幅降低资源需求的同时，还能提供类似的准确度。

算法和知识蒸馏

Llama-3.1--51B 有别于其他模型的另一个关键组件，就是算法。

该算法对模型中的每个潜在区块进行评分，并确定哪些配置能在速度和精度之间取得最佳平衡。

跑分 Llama-3.1 70B- Llama-3.1--51B- 准确率.08%84.53%99.35%.39%69.20%98.30%.66%80.20%98.21%.44%85.58%99.01%.04%91.43%99.34%.86%58.63%97.94%.86%31.61%93.36%MMLU .76%80.58%98.55%gsm8k .58%81.880.37% (n=20)75.85%73.84%97.35%MT .938.99100.67%

通过使用知识蒸馏技术，缩小了参考模型（Llama-3.1-70B）与 -51B 之间的精度差距，同时显著降低了训练成本。

场景 Input/ Llama-3.1- - Llama-3.1-70B- Ratio Llama (TP1)/ (TP1)2645 (TP1)2. / (TP1)2975 (TP4)2. text / (TP2)2786 (TP4)1. 2 / (TP2)1828 (TP4)2./ / (TP1)339 (TP4)1. test 12048/ (TP2)1336 (TP4)1.96319

附上参考地址

Llama

英伟达推出 Llama-3.1-Nemotron-51B AI 模型，创新使用 NAS 方法

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号