第四届青年科学家 50²论坛：沈向洋谈通用人工智能时代大模型的 10 个思考

aixo 2024-09-30 10:06:25

2024-09-30 10:06:25

9月28日，第四届“青年科学家50²论坛”在南方科技大学举行，美国国家工程院外籍院士沈向洋做了《通用人工智能时代，我们应该怎样思考大模型》的主题演讲，并给出了他对大模型的10个思考。

以下是他10个思考的具体内容：

1、算力是门槛：大模型对算力的要求，过去10年非常巨大。今天要做人工智能大模型，讲卡伤感情、没卡没感情。

2、关于数据的数据：如果有GPT-5出来，可能会上到200T的数据量。但互联网上没有那么多好的数据，清洗完以后，可能20T就差不多到顶了，所以未来要做GPT-5，除了现有的数据，还要更多的多模态数据，甚至人工合成的数据。

3、大模型的下一章：有很多多模态的科研工作要做，我相信一个非常重要的方向是多模态的理解和生成的统一。

4、人工智能的范式转移：o1出来后，从原来的GPT的预训练思路，变成了今天的自主学习的道路，就是在推理这一步强化学习，不断地自我学习的过程。整个过程非常像人类思考问题、分析问题，也需要非常多的算力才行。

5、大模型横扫千行百业：在中国的大模型建设浪潮当中，越来越多的是行业大模型。这个趋势肯定是这样的，未来通用大模型的占比会越来越低。

6、AI Agent，从愿景到落地：超级应用一开始就在那里，这个超级应用就是一个超级助理，就是一个超级Agent。

7、开源vs闭源：我认为Meta的Llama并不是传统的开源，它只是开源了一个模型，并没有给你源代码和数据，所以我们在用开源系统的时候，也要下定决心真正理解大模型的系统闭源的工作。

8、重视AI的治理：人工智能对千行百业、对整个社会的冲击非常大，要大家共同来面对。

9、重新思考人机关系：真正把人机交互搞清楚，才能成为每一代高科技企业真正有商业价值的领导者。现在讲加上微软就代表这个时代还太早，他们是领先了，但是未来还有很多想象的空间。

10、智能的本质：虽然大模型已经给大家带来很多的震惊，但是我们对大模型、深度学习是没有理论的。关于人工智能的涌现，大家只是讲讲，并没有讲清楚。

“青年科学家50²论坛”为新基石科学基金会的学术年会，由南方科技大学、腾讯可持续社会价值事业部、新基石科学基金会联合主办。新基石科学基金会由腾讯在10年内出资100亿元人民币设立、独立运营，是目前国内最大的公益性科学基金会之一，它的设立和运行，是腾讯践行科技向善、长期主义投入科学资助的具体行动。

“青年科学家50²论坛”是“科学探索奖”获奖人的跨学科学术交流平台。“科学探索奖”于2018年设立，是一项由新基石科学基金会出资、科学家主导的公益奖项，是目前国内金额最高的青年科技人才资助项目之一。每位获奖人在受资助的5年期间，至少在论坛上分享一次自己的 BIG IDEA 和最新探索。“50²”寓意“科学探索奖”每年评选出的50位青年科学家，将对未来50年的科学技术突破产生重大影响。

以下为沈向洋在本次论坛上的演讲全文：

非常高兴今天有机会在深圳和大家一起分享最近在人工智能方面的一些学习和体会。

我接着姚期智先生讲的人工智能的话题，跟大家报告一下在大模型时代，我们现在正在做的一些事情，特别是从技术融合、产业跃迁的角度来看这个问题。

实际上也不仅仅只是人工智能时代的技术发展的重要性，整个人类发展的历史就是一个技术发展的历史，没有技术就没有GDP的增长。我们就不回顾到什么钻木取火、发明轮子这些事情——我们就看过去这100年物理学上很多了不起的突破，过去70年人工智能、计算机科学的突破，可以看得到，有很多发展的机会。

今天我们讲的话题是人工智能、大模型。过去几年大家一定是一步一步被新的人工智能的体验所震撼，即使我做了一辈子的人工智能，几年前也很难想象今天这样的情况。

我想讲三个例子：第一个是从文生成文，第二个是从文生成图，第三个是从文生成视频。刚才大家讲到这样一个人工智能的系统，不仅国际上有，国内也有。比如，我今天到这里来作演讲之前，我问，我要参加腾讯的青年科学家50²论坛，做一个演讲，作为我这样的背景应该讲什么样的话题。大家可能觉得有点搞笑，其实用下来，觉得还是非常好的。

大家都比较熟悉了，两年前就出了一个文生图的系统，你给出一段话，它就生成一个图出来。7个月之前它又出来了一Sora，你给它一段话，它给你生成一段60秒的高清视频，比如这个漫步在东京街头的视频，这都非常震撼。（时间关系我就不放视频了。）

我讲一下这个文生图的例子。我是做计算机图形学的，自以为对一张照片好和不好很有感觉。两年前，这张照片出来，这是人类历史上第一个人工智能生成的照片，登上了美国时尚杂志（《》）的封面。在旧金山有一个数字艺术家用了的系统，问了一段话，产生了这样一个结果。这段话是：在浩瀚的星空中，一位女宇航员在火星上昂首阔步，走向一个广角镜头。我自己没有那么大的艺术天分，但是我看到这张图之后是非常震惊的，我想你也会同意我的讲法，人工智能画出这样的图出来，它真的就是像一个女宇航员。所以这个人工智能已经到了相当智能的程度。

今天有了这样一些了不起的技术，甚至有了这样一些了不起的产品，我们在国内也都非常努力，也在做大模型，从技术到模型，到后面的应用，方方面面我们都在做。刚才姚院士也讲了很多清华最新的工作。所以我就想跟大家分享一下，在通用人工智能时代，我们应该怎么去思考大模型，我想谈几点自己的看法。

第一个思考，算力是门槛。

今天的通用人工智能、大模型、深度学习，最重要的一件事情是最近这些年整个人工智能算力整体的增长。

过去10年，大模型用到算力的增长，一开始是每年六七倍的增长，后来每年超过4倍的增长。我现在问大家一个问题，如果有一件事情一年涨4倍，10年会涨多少倍？你先想一想，我一会儿再回到这个问题上。

大家都知道这一波人工智能发展，最获益的公司就是英伟达，英伟达的出货量逐年递增，算力逐步增强，整个公司的市值也成为全世界3个3万亿美元市值的公司（微软、苹果、英伟达）之一。最重要的还是因为每年大家对算力的需求。2024年购买英伟达芯片的数量还在急剧增长，比如埃隆·马斯克，他现在在建一个10万H100卡的集群，本身建万卡系统就非常困难了，建10万卡系统更困难，对网络的要求都非常高。

今天讲算力、大模型这件事情，最重要的就是(算力和数据)扩展（ Laws），算力越多，智能越增长，现在大家都还没有摸到天花板。其中很不幸的是，整个数据量大了以后，算力的增长还不是线性增长，算力的增长更加像是一个平方的增长。

因为模型大了以后，要把模型训练出来，数据的量也要堆上去，所以相对来讲更加像是一个平方的增长。所以对算力的要求，过去10年非常巨大。所以我就讲一句话，今天要做人工智能大模型，讲卡伤感情、没卡没感情。

我刚才问了大家一个问题，每年涨4倍，10年涨多少倍？我们学计算机的人都知道有一个东西叫“摩尔定律”，每18个月左右算力增长一倍，英特尔这么多年就是这样发展起来的。为什么英伟达现在已经超越了英特尔？很重要的原因就是它的增长速度不一样。如果18个月涨一倍，10年大概涨100倍，这也是非常了不起的事情；如果每年涨4倍，10年就是100万倍，这个增长是非常惊人的。如果你这样想问题，英伟达的市值过去这10年涨得这么快，也就是可以理解的。

第二个思考，关于数据的数据。

算力、算法和数据，是人工智能重要的三个因素。前面我提到我们需要很多的数据才能训练通用人工智能。当出来的时候，当时还只是在发表论文阶段，说需要2万亿的Token的数据量；到GPT-4出来的时候，大概是12T的数量；GPT-4不断地训练，今天估计它已经超过20T的数量。对人工智能关心的人都知道，这么长时间以来大家一直等待着GPT5出来，但是它一直迟迟没出来，如果有GPT-5出来，我个人判断可能会上到200T的数据量。回过头来问，互联网上没有那么多好的数据，等你清洗完以后，可能20T就差不多到顶了，所以未来要做GPT-5，除了现有的数据，还要更多的多模态数据，甚至人工合成的数据。

很有意思的一件事，就像过去三四十年，大家把自己的信息放到网上分享，以前我们觉得是在给搜索引擎打工，现在更加了不起的是，我们三四十年的积累，就是为了这样一个时刻，它把所有的东西整合在一起，通过强大的算力，把这样一个人工智能模型学出来，就是发生了这样一件事情。

第三个思考，大模型的下一章。

干到今天了，下一步应该怎么办？首先是语言模型。以为代表，它的底层技术是自然语言处理。今天大家正在干的是多模态模型，以GPT-4为代表，里面很多技术是计算机视觉。再向前走，就是要做具身智能。具身智能的目的在哪里？实际上是我们要建一个世界模型，就算是多模态的，底层的物理模型也是没有的，所以要做这样一个世界模型。世界模型就是你不仅要读万卷书，还要行万里路，把世界上更多的知识再反馈回你的大脑里。所以应该做机器人。我就觉得深圳应该下定决心做机器人，做具身智能。机器人里面有一个特别的赛道叫自动驾驶，自动驾驶是一个特别的机器人，只是它是在给定的路线上行驶。

要怎么做？有很多多模态的科研工作要做，我相信一个非常重要的方向是多模态的理解和生成的统一。就算Sora做出来，它也是分开的，多模的生成和多模的理解没有统一起来。这方面有很多科研的工作我们可以做。

举一个例子，我的几个学生做了一家大模型公司阶跃星辰，他们多模态的理解做得非常优秀。如果拿一张图给人工智能看一看，为什么图中的行为被称为“无效技能”，AI给你解释是，这个图看起来好像是一个小朋友在地上打滚，但是他妈妈无动于衷，自己在看手机和喝饮料，所以小朋友这个技能就被称为无效技能。AI现在对图的理解做得越来越好。

第四个思考，人工智能的范式转移。

两个礼拜前，发布了最新一个模型就是o1。前面我也提到GPT一直发展，到了GPT4以后，GPT5一直出不来，大家就在想，如果只是大模型参数的增长，是不是走到顶了？没有人知道，现在它并没有放出来，我们国内也没有做出更加超大的模型。

但是现在一个新的维度出现了，不是做前面的预训练(扩展)，而是在做推理的时候再去做扩展。它是从原来的GPT这样一个思路，变成了今天的自主学习的道路，就是在推理这一步强化学习，不断地自我学习的过程。

以前我们做预训练，基本上就是预测下一个字是什么，下一个token是什么，现在新的思路是要打草稿，试试看这条路对不对，那条路对不对，就像人的大脑的思考，有一个快系统、一个慢系统，就像我们做数学题一样，先打个草稿，看看哪个路走得通，有一个思维链，再看优化思维链过程中的机会。到现在为止只有把这样一个系统放出来，我也鼓励大家看看这里面的一些例子。

最重要的是，它整个过程非常像人类思考问题、分析问题，打草稿、验证、纠错、重新来，这个思路空间就会非常大。做这件事也需要非常多的算力才行。

第五个思考，大模型横扫千行百业。

所有的公司都要面对大模型带来的机会，但是不需要每个公司都做通用的大模型，如果你连1万张卡没有，是没有做通用大模型的机会的，要做通用大模型，至少要有万卡。

比如说GPT4出来的时候，它的训练的总量是2×10^25 FLOPS。这么大的训练量，1万张A100卡也要跑一年时间才能跑到这个量，如果这个量都跑不到，就不存在做出真正的通用大模型。有了通用大模型，我们在这个基础上可以建自己的行业大模型，比如金融、保险，可能千卡就可以做得非常好，在上面做一些微调。对一个企业来讲，你有自己的数据，有内部数据、客户数据，把这些数据拿出来，几十张、上百张卡就可以做一个面向自己企业的非常好的模型。所以它是一层一层不断地搭起来的。

当然还有一个非常重要的维度，也是我非常喜欢的，就是未来的个人大模型。今天我们已经慢慢在PC、手机里面(数据有一定的积累)，对我们的理解越来越多，未来我相信有这样一个超级智能帮助你的AI，收集了相关数据以后，它可以建一个自己的个人大模型。这是在(个人)终端部分，手机就是一个很自然的事情。PC方面，微软、联想这些PC公司也在推一个AI PC的概念，所以也有这样一些机会。

在中国的大模型建设浪潮当中，越来越多的是行业大模型。这里举一个例子，因为中国的大模型上线之前需要网信办批准，到今年7月底之前，中国一共有197个模型被网信办批准，当中70%是行业大模型，30%是通用大模型。这个趋势肯定是这样的，未来通用大模型的占比会越来越低。比如我们可以在通用大模型上做金融模型，这是上海的一家公司做的面向他的金融客户的大模型。比如英伟达的财报出来了，马上可以总结出它的亮点、问题是什么。

第六个思考，AI Agent，从愿景到落地。

今天我们看到大模型最大的超级应用是什么，最大的机会在哪里。很多人现在还在不断地尝试，想找到一个超级应用。实际上超级应用一开始就在那里，这个超级应用就是一个超级助理，就是一个超级Agent。

以前我跟盖茨在微软一起做了很多年的工作，我们都在思考这个问题。它难在哪里？难在真正你要做有用工作的时候，要理解一个工作流，你问了一个问题，它能一步一步拆解。今天能做的，又有一定影响力的，比如做客服、个人助理。但是很多工作是没法弄的，它为什么没法弄呢？你要做一个数字大脑。底下的大模型只是第一步，大模型的能力还没有强大到能够把上面的这些工作都帮你一步一步做掉。因为你真正要做这样一个Agent，让它能做事情，它要了解下面这些问题是什么，每一部分都有对应的技能。

大家用今天的模型已经做了很多不错的例子，比如你可以做AI健康顾问，讲你对化妆品的理解，推荐化妆品，接下来大家会看到非常多这方面的应用。

第七个思考，开源和闭源。

过去几十年世界科技的发展，特别是中国科技的发展，有两件事情是非常重要的。

第一是出现了互联网，有了互联网之后，你就可以在网上找到所有的论文、资料。

第二是开源，开源就使得你做应用的时候，跟领先者的差距急剧缩短。但是开源这件事情跟大模型、数据库的开源还不一样，虽然现在开源的能力是直逼闭源。国内也有很多公司在做开源的东西，开源今天做得非常好的是Meta的Llama 3.1，号称和的差距不大了。我不这么认为，我认为它并不是传统的开源，它只是开源了一个模型，并没有给你原代码和数据，所以我们在用开源系统的时候，也要下定决心真正理解大模型的系统闭源的工作。

第八个思考，重视AI治理。

因为AI发展太迅猛了，全世界对AI安全都非常重视。因为这件事情的影响实在是太大了，人工智能对千行百业、对整个社会的冲击非常大，整个世界的发展实际上是要大家共同来面对的。

第九个思考，重新思考人机关系。

我刚才介绍了文生文、文生图、文生视频——有多少是机器的智能，有多少是因为人机交互给我们带来的震撼？

大概10年前，《纽约时报》专栏作家John 写了一本我非常喜欢的书《 of Grace》，当中总结了科技过去发展的两条线：一条是人工智能；另外一条是IA（），它是智能的增强，就是人机交互。有了计算机之后，它帮助人做了很多事情，下棋是其中一个例子。

事实上，真正把人机交互搞清楚，才能成为每一代高科技企业真正有商业价值的领导者。今天人工智能的界面已经非常清晰了，就是对话的过程，今天的代表是。但是讲加上微软就代表这个时代还太早，他们是领先了，但是未来还有很多想象的空间。

第十个思考，智能的本质。

今天虽然大模型已经给大家带来很多的震惊，但是我们对大模型、深度学习是没有理论的。今天，我们恨不得有任何理论都觉得很好。而不像在物理学，从物理的角度讲，大到浩瀚的星空、小到微小的量子都有很美的一些物理的定律来描述。今天人工智能还没有这样的理论，没有可解释性、没有鲁棒性。今天深度学习的框架到不了真正的通用人工智能。

关于人工智能的涌现，大家只是讲讲，并没有讲清楚。为什么模型大到一定程度智能就涌现了？为什么70B的模型就能涌现智能？没有这样的道理。所以我们也在非常努力地研究这方面的问题。去年暑假我也在香港科技大学组织了一场主题为“ for ”的研讨会，讨论涌现智能背后还是要把一些科学原理、数学原理讲清楚，要有更多愿意探索的人参与进来，特别是像腾讯“科学探索奖”、“新基石研究员”项目的出现，有更多的年轻科学家加入进来，有更多的信心、信念深入到为未来人工智能发展再有突破的难的问题当中。

再次祝贺各位获奖者、年轻的科学家。科技的发展需要靠年轻人一代一代来做，特别是人工智能。再次谢谢大家。

本文来自“腾讯科技”，36氪经授权发布。

大模型

第四届青年科学家 50²论坛：沈向洋谈通用人工智能时代大模型的 10 个思考

腾讯设计杰出专家:大模型加速产业进入全新智能时代

涉及量子计算！美国将中国科大、中国科学院物理所等37个实体列入“实体清单”｜硅基世界

站长之家：正筹备展示革命性的人机对话技术

AI搜索的战场，我们为什么要在意的？

联合创始人Mike被任命为首席产品官

微软 Phi-3-vision 基准测试,主打“视觉能力”

中国品牌人物500强前十回应：别在意低头做事

以专业知识内容助力民众跨越自媒体运营门槛

Temu们狂卷低价，亚马逊也坐不住了

微信加大“自媒体”造谣治理力度：限制增粉、阶梯封号