2023 年大模型落地差口气,原因何在?张奇为你解读

aixo 2024-09-25 16:03:20
大模型 2024-09-25 16:03:20

张奇提到,2023年,大家认为大模型无所不能,所有的地方都可以使用,可以写code(代码),可以做医疗,能够做很多东西。但是干了一年后,大家发现,大模型落地总是差那么一口气。

他举例,去问大模型一句诗的下一句是什么,它可以做得很好,但是如果让它回答一句诗的前面一句是什么,或者一个成语的中间一个字是什么,结果会变得非常差。这也就让我们思考,为什么大模型会出现这些情况,它能做什么,不能做什么。

对于微调阶段,张奇认为,这和前一阶段的训练数据非常相关,想让它有什么样的能力,就得准备什么样的训练数据,而且是非常精心地准备,这和自然语言处理的逻辑非常不同。过去可以大量加训练数据,现在完全不是。

关于大模型能力边界,张奇认为,目前可以确认的大模型的能力是上下文建模、多任务学习、跨语言迁移性、文本生成能力。

文本生产能力方面,张奇称,在之前,自然语言处理研究者是不敢做自然语言生成的,因为难度非常大。模型大到现在这种程度之后,自然语言生成就可以做得非常好了。

张奇表示,可确认的就是这四个能力。“但是推理怎么样,我觉得还是做了非常值得研究的过程,去年我们也做了很多过程型的推理,但是它的泛化能力怎么样,以及未来是什么,我觉得还需要非常仔细地研究。”张奇说道。