大模型正在改变深度机器学习,训练大模型的工程技术挑战在哪里?

Aic 2024-01-23 15:12:59
财商 2024-01-23 15:12:59

在OpenAI将生成式大模型带入主流视野之后,几乎所有头部厂商都在研究和推出自己的大模型业务。今年9月腾讯对外推出自研的通用大模型“混元大模型”,成为国内头部科技企业中最后一个对外发布大模型业务的公司。

推动大模型应用落地是一项颇为复杂的工程,不仅要考虑如何降低训练和精调的成本,还要关注投产时的推理成本。因为当所有的应用场景都用千亿级模型去做训练和推理时,会形成长期的成本消耗,企业需要支撑每次服务调用带来的算力成本。

有些厂商也推出了小尺寸模型,试图在性能、成本和效果之间做均衡:在一些需要高度复杂推理的场景下用大模型能力,在一些不太复杂的场景使用小尺寸模型。

任何一家厂商,如果想推出领先于竞品的大模型服务,不仅要有最好的硬件集群,还要针对新型算力集群提供训练推理框架、软件框架,做软硬适配一体化。

对于这些话题,近日,腾讯的两位混元大模型技术专家与界面新闻等媒体进行了深度沟通,聊到了大模型对传统深度机器学习平台的改变,以及大模型底层技术支撑对头部厂商的挑战。

机器学习平台不再是从0到1

虽然都在人工智能范畴之下,但在各大公司纷纷介入大模型研发后,即便是不久之前的深度机器学习平台,也与大模型优化出来的新型训练推理范式有着本质区别。

从模型的精调、评测再到部署,这些环节就是现在专属模型定制的主要训练过程,与传统机器学习平台的区别也主要集中在这个过程中。

比如说,传统的机器学习平台只提供各种库和算法,训练都是从0到1的过程,不会提供一个带参数的模型。

今天由大厂提供的千亿规模基础模型,则包含了各种尺寸的模型矩阵,以及庞大的数据量。此时研发人员要做的就是精调专属模型,并进行应用构建。

其中,庞大的数据量决定着应用落地的天花板。十几年前的机器学习平台,数据科学家60%-80%的时间在做数据清理,只有20%左右时间在建模。