微软开源 3 款 Phi-3.5 新模型，小模型也能超越 GPT-4o？

aixo 2024-08-23 01:06:57

2024-08-23 01:06:57

作者｜子川

来源｜AI先锋官

开源界的扛把子——微软一口气又又又开源了3款Phi-3.5新模型。

38.2亿参数的Phi-3.5-mini-

419亿参数的Phi-3.5-MoE-

41.5亿参数的Phi-3.5--

据说这三兄弟个个能力非凡。虽然只是三款"小模型"。但是它们在多项第三方基准测试中表现出色，甚至在某些测试中超越了谷歌的 1.5 Flash、Meta的Llama 3.1，尤其在一些特别的场景还击败了的GPT-4o。可不是mini。

“小模型”都能比GPT-4o厉害？

老大 Phi-3.5 MoE：专家大集合

Phi-3.5 MoE（ of ）模型，这类模型是微软首次推出的。它采用了”专家混合“的设计理念，将多个不同的模型类型组合成一个，其中每个模型类型专门从事不同的任务。

Phi-3.5-MoE在基准测试中，能力表现不俗。在多项测试中击败Llama-3.1-8B-，Gemma-2-9b-It等模型，仅次于GPT-4o-mini。在5个单项的MMLU测试中，更是击败了GPT-4o mini！成功问鼎。

Phi-3.5-MoE模型还支持处理长达128K的上下文，与只能处理8K上下文的Gemma-2系列模型相比，Phi-3.5-MoE显然是更胜一筹。

目前已经可以和Llama-3.1-8B-和-Nemo-12B--2407等“大”模型掰掰手腕啦。

Phi-3.5-MoE 在多语言 MMLU、MEGA 和 MMLU-pro 数据集上表现还不错。仅次于GPT-4o-mini。

总的来说，Phi-3.5-MoE这个模型虽然只有6.6亿个活动参数，但在理解和数学能力上可以和大AI模型相比较啦。而且在逻辑推理能力上更是仅次于GPT-4o-mini。

研究员指出，因为Phi-3.5-MoE的体积小，所以它记不住太多事实，有时候可能会出错。但是，如果把搜索引擎和它结合起来用，特别是在RAG模式下，这个问题就能解决。

老二 Phi-3.5-Mini：小巧而强大

在三款模型中，Phi-3.5-Mini 特别引人注目。只有38亿参数，但它在多语言处理和多轮对话等任务中表现出色。

更令人惊讶的是，它在基准测试（衡量长文本代码理解能力）中甚至超越了参数量更大的模型，如Llama-3.1-8B-和-7B-。

相对而言，Phi-3.5 Mini 在多语言MMLU、MEGA和多语言MMLU-pro数据集上的多语言能力表现较弱。但是考虑Phi-3.5 Mini 只有38b的活动参数，总的来说表现还算凑合。

Phi-3.5-Mini 同样也支持 128K 上下文长度。能力表现上和Phi-3.5-MoE模型并无太大差别。

不过Phi-3.5-Mini 在长上下文代码理解的基准里，还是取得不错的成绩的。

三弟 Phi-3.5 ：视觉AI的新突破

Phi-3.5--模型是这个系列中专门针对视觉任务设计的模型。尽管只有41.5亿参数，但它在图像和视频分析方面展现出惊人的能力。

这个模型在某些视觉任务上的表现甚至可以与GPT-4o相媲美。

Phi-3.5 在基准测试中，在某些领域还击败了GPT4o，可不是mini。

在视频处理能力方面，Phi-3.5-与领先的几个模型相比，仍有比较大的进步空间，但得分也都基本超过了模型。

虽然大家对他们的能力有不同的评价，褒贬不一，但不得不说，微软这次确实又开放了一个不错的模型。

微软这次推出的Phi-3.5系列模型，不仅技术上有所突破，更重要的是，它代表了一种新的AI技术共享精神。这种开放性将大大推动AI技术的进步和实际应用。

建议投票微软改名“"

扫码邀请进群，我们带你一起来玩转、GPT-4、文心一言、通义千问、讯飞星火等AI大模型，顺便学一些AI搞钱技能。

往期文章回顾

OpenAI