微软开源 3 款 Phi-3.5 新模型,小模型也能超越 GPT-4o?
作者|子川
来源|AI先锋官
开源界的扛把子——微软一口气又又又开源了3款Phi-3.5新模型。
38.2亿参数的Phi-3.5-mini-
419亿参数的Phi-3.5-MoE-
41.5亿参数的Phi-3.5--
据说这三兄弟个个能力非凡。虽然只是三款"小模型"。但是它们在多项第三方基准测试中表现出色,甚至在某些测试中超越了谷歌的 1.5 Flash、Meta的Llama 3.1,尤其在一些特别的场景还击败了的GPT-4o。可不是mini。
“小模型”都能比GPT-4o厉害?
老大 Phi-3.5 MoE:专家大集合
Phi-3.5 MoE( of )模型,这类模型是微软首次推出的。它采用了”专家混合“的设计理念,将多个不同的模型类型组合成一个,其中每个模型类型专门从事不同的任务。
Phi-3.5-MoE在基准测试中,能力表现不俗。在多项测试中击败Llama-3.1-8B-,Gemma-2-9b-It等模型,仅次于GPT-4o-mini。在5个单项的MMLU测试中,更是击败了GPT-4o mini!成功问鼎。
Phi-3.5-MoE模型还支持处理长达128K的上下文,与只能处理8K上下文的Gemma-2系列模型相比,Phi-3.5-MoE显然是更胜一筹。
目前已经可以和Llama-3.1-8B-和-Nemo-12B--2407等“大”模型掰掰手腕啦。
Phi-3.5-MoE 在多语言 MMLU、MEGA 和 MMLU-pro 数据集上表现还不错。仅次于GPT-4o-mini。
总的来说,Phi-3.5-MoE这个模型虽然只有6.6亿个活动参数,但在理解和数学能力上可以和大AI模型相比较啦。而且在逻辑推理能力上更是仅次于GPT-4o-mini。
研究员指出,因为Phi-3.5-MoE的体积小,所以它记不住太多事实,有时候可能会出错。但是,如果把搜索引擎和它结合起来用,特别是在RAG模式下,这个问题就能解决。
老二 Phi-3.5-Mini:小巧而强大
在三款模型中,Phi-3.5-Mini 特别引人注目。只有38亿参数,但它在多语言处理和多轮对话等任务中表现出色。
更令人惊讶的是,它在基准测试(衡量长文本代码理解能力)中甚至超越了参数量更大的模型,如Llama-3.1-8B-和-7B-。
相对而言,Phi-3.5 Mini 在多语言MMLU、MEGA和多语言MMLU-pro数据集上的多语言能力表现较弱。但是考虑Phi-3.5 Mini 只有38b的活动参数,总的来说表现还算凑合。
Phi-3.5-Mini 同样也支持 128K 上下文长度。能力表现上和Phi-3.5-MoE模型并无太大差别。
不过Phi-3.5-Mini 在长上下文代码理解的基准里,还是取得不错的成绩的。
三弟 Phi-3.5 :视觉AI的新突破
Phi-3.5--模型是这个系列中专门针对视觉任务设计的模型。尽管只有41.5亿参数,但它在图像和视频分析方面展现出惊人的能力。
这个模型在某些视觉任务上的表现甚至可以与GPT-4o相媲美。
Phi-3.5 在基准测试中,在某些领域还击败了GPT4o,可不是mini。
在视频处理能力方面,Phi-3.5-与领先的几个模型相比,仍有比较大的进步空间,但得分也都基本超过了模型。
虽然大家对他们的能力有不同的评价,褒贬不一,但不得不说,微软这次确实又开放了一个不错的模型。
微软这次推出的Phi-3.5系列模型,不仅技术上有所突破,更重要的是,它代表了一种新的AI技术共享精神。这种开放性将大大推动AI技术的进步和实际应用。
建议投票微软改名“"
扫码邀请进群,我们带你一起来玩转、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾