开源代码大模型王座易主,超越 70B 的 22B 参数量模型横空出世
克雷西 发自 凹非寺
量子位 | 公众号
开源代码大模型的王座,再次易主!
来自素有“欧洲”之称的,用22B参数量表现超越了70B的Code Llama。
模型名为,将代码的英文Code与公司名结合而成。
在80多种编程语言上进行过训练后,用更少的参数实现了更高的性能,窗口长度也达到了32k,相比之前一众4k、8k的模型大幅增加。
而且已经有人表示,GPT-4o和-Opus都失败的代码编辑任务,被成功解决了。
于是有网友直言,的推出,直接改写了多语言代码模型的游戏规则。
另一方面,还有网友直接@了知名本地大模型框架,希望能够支持,结果这边也迅速响应,在请求发出后1个小时就增加了对的支持。
那么,在测试中都取得了哪些成绩呢?
开源编程模型的新王者
的参数量为22B,支持32k的上下文窗口。
在开发过程中,研究人员使用了80多种编程语言的代码数据对进行了训练。
其中既包括、Java、C++和Bash等这些流行语言,也有像、COBOL这样的古早语言。
值得一提的是,其中的COBOL诞生于1959年,但至今全球仍有43%的银行系统依赖它,然而另一方面,现在会用的人数却寥寥无几,而且普遍年事已高。
AI工具对COBOL的支持,或许将成为解决COBOL人才极度紧缺问题的一种途径。
说回到,虽然参数量只有不到三分之一,但测评成绩已经大幅超过了70B的Code Llama。
对于语言,研发团队使用了(pass@1)和MBPP评估了的代码生成能力,用来评估输出预测,以及用评估在远程存储库中的代码补全能力。
结果,在其中的三项测试中都取得了最佳成绩,并对Llama 3和Code Llama形成了全面超越。
数据库方面,在针对SQL的测试中,的表现也与通用模型十分接近。
对于其他一些编程语言,和通用版各有胜负,平均成绩则小幅超过了,但相对于Code Llama的优势是十分明显的。
另外,还支持FIM(fill-in-the-),也就是可以对现有代码进行填充补全。
在、JS和Java三种语言当中,都取得了接近或超过90%的评分,平均成绩91.6%,超过了参数量更大的 Coder 33B。
速度方面,使用在线对话版本,只要三秒钟就能构建出一个带有顶部和侧边栏的HTML框架。
不仅性能表现优异,形式上,支持的使用方式也多种多样。
已经把模型权重上传到了,有条件的可以自行下载部署。
以及、,还有开头提到的等这些大模型框架,以及自家的开发者平台La 当中都已经支持使用。
专属API也正在赶来的路上,正在进行为期8周的测试,期间开发者可以免费使用。
如果还是不会部署的话,也可以到的在线对话平台Le Chat当中,直接使用网页进行对话。
当然,开发者更关心的,可能还是能不能集成到IDE中使用。
对此,官方暂未推出原生的IDE支持,不过已经有.dev、等第三方插件支持了,可以通过这些插件在和系列IDE中使用。
One More Thing
与一同官宣的,还有全新的“非生产”(Non-)许可协议,简称MNPL。
本次发布的使用的许可协议也正是MNPL,按照规定仅可用于研究目的,不能进行商用。
并且,这份协议对“非商用”的界定也十分严格,即使仅将其用于公司内部事务也不被允许。
有开源作者就此吐槽,他们用我代码的时候从未征求我的意见,为什么还反过来要求我遵守他们的规定,这实在是太荒谬了。
而这边的解释则是,如果放开商业用途,可能无法得到使用者对模型研发的贡献。
官方同时也表示,虽然不能商用,但并不意味着之后的其他开源模型也是如此,同时明确表示后续会继续发布基于 2.0协议的其他模型。
参考链接:
[1]
[2]
[3]
— 完 —