Meta 发布量化版本的 Llama 3.2 模型，模型大小缩减 56%，运行速度提升 2 至 4 倍

aixo 2024-10-28 09:14:24

2024-10-28 09:14:24

【】meta公司近日宣布，继9月推出Llama 3.2的1B与3B模型后，他们于10月24日发布了这两个模型的量化版本。通过量化，模型大小平均缩减了56%，RAM使用量降低了41%，并且模型运行速度提升了2至4倍，功耗也有所下降，这使得模型更易于部署在移动设备上。

meta采用了两种量化方法：量化感知训练（QAT）和后训练量化（）。前者注重模型的准确性，后者则强调模型的可移植性。

针对Llama 3.2的1B和3B模型，meta分别推出了两款量化版本。这些量化模型相较于非量化的Llama BF16模型，速度更快，RAM占用更少，功耗更低，同时保持了与Llama BF16版本相近的精度。

尽管量化后的模型支持的Token上下文有所减少，但meta的测试显示，量化版本的基准测试结果与原版相差无几。

meta已在一加12、三星S24+/S22及苹果iOS设备等移动平台上测试了这些量化模型，并计划未来通过神经处理单元（NPU）进一步提升模型性能。

Llama

热门文章

腾讯设计杰出专家:大模型加速产业进入全新智能时代

2024-05-12

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

2024-05-10

站长之家：正筹备展示革命性的人机对话技术

2024-05-12

AI搜索的战场，我们为什么要在意的？

2024-05-10

联合创始人Mike被任命为首席产品官

2024-05-17

微软 Phi-3-vision 基准测试,主打“视觉能力”

2024-05-28

中国品牌人物500强前十回应：别在意低头做事

2024-01-22

以专业知识内容助力民众跨越自媒体运营门槛

2024-01-22

Temu们狂卷低价，亚马逊也坐不住了

2024-01-23

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号

2024-01-22