《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

用户投稿 10 0

港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

理解智能,并不只是研究者和工程师的课题。

文丨程曼祺 刘倩

大模型看起来已具备智能的形式:能陪你聊天,步步思考,做高等数学题,高效地写代码……这对很多人来说已经足够——足以带来更多研究成果、产品机会、巨额投资和股价攀升。

而马毅是那类觉得不够的人,他于无声处开始提问:智能的本质是什么?

这个问题的题面简单,答案却尚无共识。马毅认为,对智能的理解不应过于表面和短期,而应回到源头厘清智能诞生和发展的历史。

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

自 2000 年从伯克利大学博士毕业以来,马毅先后任职于伊利诺伊大学香槟分校(UIUC)、微软亚研院、上海科技大学、伯克利大学和香港大学,现担任香港大学计算与数据科学学院院长。他和团队提出的压缩感知技术,到现在还在影响计算机视觉中模式识别领域的发展。

在浩瀚的宇宙里,除了我们正在一手制造却尚不完全可解释的 “机器智能” ,人类所见识过的智能只有一个大样本:生命。

马毅认为,智能的本质是 “学习”——生命就是智能的载体,从 DNA 出现,到神经系统诞生和寒武纪物种大爆发,再到人类的语言与数学的诞生,智能有不同的表现形式;但不变的是,智能都是在学习外部世界的知识与规律,从而进行预测,使知识可以为我所用。智能是在寻找规律并利用规律,是一个对抗宇宙熵增的过程。

从智能的历史开始,本次访谈也延展讨论了机器智能的 80 年历史起伏,马毅自己亲历了部分变化:他刚博士毕业时,找不到对口方向的教职;他现在被引用最多的成果,一度没有任何会议接受。

马毅也分享了一个研究者的技术品味如何形成?“品味” 不仅是一种认知,也是认知被挑战时能继续坚持的自信。马毅的品味,使他进入了一个目前在 AI 工业界还不那么主流的方向:白盒大模型,和能实现 “闭环、反馈、纠错” 的机器智能。

今年 9 月开始,港大所有本科新生即将开始学习一门新的必修课——AI 通识课程,计算与数据科学学院主导设计了这门课,马毅会自己教智能历史的部分。

当 AI 和大模型越来越多进入我们的生活,理解智能、思考智能,并不只是研究者和工程师的议题。

推理模型没有在真正 “推理”;DeepSeek 这样的开源赶超者一定会出现

晚点:o1、R1 等推理模型是当前 AI 领域最主流和重要的方向,在你的认知里,它们是真的在做推理吗?

马毅 :今天在清华演讲时,正好也有同学问这个问题。我是当老师的,就从老师角度来回答。

比如说教数学,很多学生看起来都能答题,但其中的逻辑推理能力至少有三个层次。

第一类学生是靠填鸭式的记忆来做题——看大量题,记住其中的模式,但并不一定真理解了。他们也能考出不错的成绩。

第二类学生是真正学懂了逻辑推理方法,遇到新问题时能严谨推理、判断对错,每一步都很清晰。

第三个层次更高,是在一个系统原本没有逻辑时,能 “发现规律”——比如欧几里得提出公理体系、亚里士多德提出三段论推理等,这是从经验中抽象出了新逻辑。

所以,逻辑推理能力可以分为三层:模仿,理解并严谨运用,抽象出新规律。但现实中,大家常把这三种混为一谈。我们做科研,就是试图厘清什么才算智能,才是真正的逻辑和推理,而不是笼统定义。

晚点:现在的 o1 和 R1 更多处于你刚才说的第一层吗?

马毅 :至少目前,我没看到有严格证据显示大模型是在用逻辑来解决问题。

比如陶哲轩(知名数学家、菲尔茨奖得主)也在用数学题测大模型,他发现在训练过的题上,大模型能解决奥数级别的复杂问题,但同一个模型,又做不对小学阶段的初等数学问题。如果真具备严密推理能力,不该出现这种情况。

所以评价模型能力不能只看 “刷分” 表现。做学问要严谨地厘清问题和寻找证据。

晚点:现在推理模型展现的长思维链(long CoT)——它看起来能像人那样一步一步地思考,这实际上是什么?

马毅 :这种 “思维链” 还是需要人协助生成,有两种主要方法:一种是由研究生或专家手工写解题或逻辑思考过程,即 “思维链”,供模型学习;一种是在一个不错的预训练基础模型上,给出 prompt(提示词),一步步引导模型自己生成一些思维链,再筛选出好的例子,让模型做 fine-tuning(精调),或者也可以让模型根据这些例子学会打分机制,这就可以用强化学习了(注:强化学习的核心思路是给系统表现设置对错反馈)。第二种方法的自动化程度更高、成本更低,但也需要人参与。

总之,这其中有很多不同环节。就像配中药一样,大家在尝试不同组合,各种成分都有。

晚点:所以业内经常说训练模型像炼丹。

马毅 :确实有一些经验性的东西。工程界里,一个团队如果在某个路线上做得比较好,超过其他人,他们可能就会经验性地觉得这种 “配方” 更重要,是效果为王。而我们学界会更关注每种方法在系统中具体起什么作用,希望搞清楚机制。

晚点:DeepSeek 在 R1-Zero 中展现出了从 0 开始强化学习,也能取得不错效果,这是个多重要的突破?

马毅 :我个人理解,现在要提升一个基础模型,也就是在一个比较好的预训练模型上提升编程、数学等能力,其实没太多秘密,核心方法主要是两种:

- 一是 Supervised Fine-Tuning(SFT,监督微调),通过提供范例,让模型学习并模仿其中的解题思路;

- 另一种就是 Reinforcement Learning(强化学习)。通过 “做对加分、做错扣分”,引导模型逐步掌握任务解法,它尤其适用编程、数学题这类有明确对错的推理任务。

到底哪种方法用得多,目前有争议。外界认为 o1 是先做微调,再做 RL;DeepSeek 又展示了直接做 RL 也可以。但这有夸张的成分,因为 R1-zero 的前提还是它的基础模型,也就是 DeepSeek-V3,V3 本身就很不错。而基础模型要好,前期也得做微调。

我们最近有篇论文,叫 Supervised Fine-Tuning Memorizes, Reinforcement Learning Generalizes(《监督微调记忆,强化学习泛化》),就解释这两种方法在提升模型推理表现方面相关、但不同的角色。结论是,两种方法都需要,一般而言,先微调,再强化学习效果更好。

晚点:你觉得这不是什么秘密,甚至推理模型都不是真的 “在推理”,但去年至今,整个行业都为推理模型振奋,不少人认为这是一次范式转移。这是为什么?

马毅 :这有炒作的因素。OpenAI 去年有不少内部问题,没能继续拉开和其他公司的技术优势。可能是因为当时要融资吧,Sam Altman 在 o1 发布前各种暗示,似乎已发现了通往 AGI 的秘密。

结果 o1 实际做的事,就是用 SFT 和 RL 提升模型能力——这套方法学界之前也知道有效,也在做,Google 等公司都知道。这和当年 GPT 带来的变化不是一个等级的。

晚点:o1 在编程、解数学题、研究复杂问题上的效果确实有明显提升。

马毅 :刷题是会有提升。我以前考 GRE,刷到了快满分,但刚到伯克利时简直又聋又哑,我写的第一篇文章,被导师狠狠骂了一顿。奥赛也类似,刷过题和没刷过题的人完全两回事,分高的人并不一定数学水平更高。

工业界追求效果没问题,但学术上我们要搞清楚问题本质。

晚点:DeepSeek 的影响力狂潮说明了什么?

马毅 :我觉得 DeepSeek 有点像《皇帝的新衣》里那个小孩。 R1 验证了 o1 没有什么别人不掌握的秘密,同时它还能做得更便宜,更高效。

当然 DeepSeek 的 “便宜” 程度也被误读了。500 多万美元是最后一次的训练成本,而训模型的更大成本是前期试错。就像做题,第一遍很辛苦,最后誊一遍答案总是简洁、容易的。Google 等公司最后一次的训练成本也就千把万美元,没有贵那么多。

晚点:去年时,你有想过中国会冒出 DeepSeek 这样的团队吗?

马毅 :我一点不惊讶。过去两三年我多次公开说过,开源很快会超过闭源。因为目前大模型在方法和技术上没有护城河,护城河在于数据、算法,试错时间、成本和过程中积累的经验,所以开源迟早会超过闭源。

就算中国没有出现 DeepSeek,也可能是法国、英国、美国的团队冒出来。这是一个 “where and when”(何时何地)的问题,不是 if or not(会不会)的问题。

从 DNA 到数学与科学,智能的一种本质和四种机制

晚点:你对当前 AI 发展的一些独特看法基于你对 AI 历史的了解和系统梳理。这次也想从问题的源头开始聊。你觉得智能的本质是什么?它最初如何产生的?

马毅 :某种意义上说,生命就是智能,或者说是智能的载体。我很喜欢一句话,大意是:整个宇宙在熵增,世界越来越混乱,而生命则是熵减的。

我认为,生命和智能的本质,就是 “学习”——是要在还没有变得完全不可预测的世界里,找到有规律、有结构、可预测的东西,进而能预测外部世界,这才能生存。

(注:根据热力学第二定律,封闭系统的熵不断增长,即混乱度不断提升,在系统平衡时达到最大值;熵减则是混乱度减少的过程。)

晚点:低等生物也能学习和预测外部世界的规律吗?

马毅 :这要回到大约 40 亿年前,生命在地球上的最初状态,这和现在的大模型也有关联。

生命最初怎么编码外部知识?是通过 DNA(脱氧核糖核酸)。可以说 DNA 就是世界上最早的大模型,它通过脱氧核糖核酸的碱基结构,有规则地记录外部世界的规律,这很像语言。

靠 DNA 学习的状态持续了 30 多亿年,这时单个生命体无法 “学习”,但通过一代代基因变异和自然选择,完成了物种层面的学习。即一个物种,整体上能跟环境形成闭环,能通过一代代遗传、变异,改进对外部世界的知识。所以单个生物个体没有智能,但进化本身实现了物种层面的智能机制。

晚点:大模型是不是主要就在这个阶段?因为现在的大模型,训好一版后不能自己迭代,需要人帮助它微调或重新训一版才能提升性能。

马毅 :对,主要还在这个阶段。这一阶段的实质其实是整个生态系统在物种层面的 “强化学习”,要构造一个能给出正负反馈的环境。在生命进化中,自然界就是评判标准,变异得对,就存活,变异得不对,就灭亡,“适者生存,物竞天择”。

深度学习的发展也类似——AlexNet、VGG、Google Net、ResNet,再到 Transformer……过去十年不知道提出了多少网络结构,好多连名字都没人记得了,就像不知道多少 DNA 在亿万年的自然选择中被淘汰了,“一将功成万骨枯”。

晚点:物种层面的强化学习是生命前 30 多亿年的状态,最近 5 亿年发生了什么?

马毅 :约 5.5 亿年前,生物开始出现神经系统,随后视觉也开始出现。神经系统和视觉给了单个生物体对外部具体环境的新记忆,这是除了遗传而来的 “大模型”,也就是 DNA 之外,对外部世界信息和规律的另一种建模。这相当于单个物体可以自己 fine-tuning(微调)了(但生物体的记忆和微调的优化机制不太一样)。所以个体生存能力大大提高,有了 5 亿年前的寒武纪物种大爆发。

一个直观的现象是,随着生命或智能形态越来越高,个体出生后与上一代相处的时间越来越长——鸟类 1 个月就离开父母自己飞了,猫科动物要一年,猴子要五六年……这是因为生物体逐渐摆脱了对预训练 DNA 的依赖,而更重视亲代传授、后天记忆、或在特殊环境中学到的东西。

从这里就能看到,随着智能形式提升,个体的智能系统减少了对预训练的依赖,而更多依靠后天记忆。这也和我们最近的工作很有关系,就是怎么让有了一定知识基础的系统,能自主更新、改进、完善记忆和知识,朝智能的第二阶段发展。

晚点:到这里是动物也有的智能,当生命进化到人类诞生后,智能又有了什么变化?

马毅 :人出现之后,有了一件了不起的事——语言文字。这极大提升了群体获取和传递知识的效率,进而提高了生存概率。比如一个人找到了水,就能告诉其他人,大家不用再试一遍。有了文字后,知识又开始更高效地传给下一代,语言文字和 DNA 一样,都能代际传承知识,只是 DNA 变异很慢,而语言文字使文明发展速度大大提高。

然后到大约 3000 年前,更神奇的事发生了,在古印度、古希腊、古中国,哲学家、数学家开始理解一些抽象概念,1、2、3、4、5、6、7……数字可以延伸到无穷,进而出现了自然数、分数、实数、虚数等抽象代数概念,以及点、线、平面、三维甚至多维空间等抽象空间概念。在我看来,像数理逻辑、因果推理这些并非源于经验,而是一种升华,但这种升华背后的机制至今仍是个谜。

这样来看,生物的智能经历了 4 个发展阶段,从 DNA 到记忆,再到文字和科学;它们机制各有不同,后期的智能并没有取代早期智能,它们是叠加、并存的关系:

- 第一阶段,物种通过基因变异实现进化,靠的是强化学习、自然选择。

- 第二阶段,单个生命体出现神经系统,形成记忆,个体增加了自适应和不断纠错的能力。

- 第三阶段:文明依靠语言和文字流传。但这部分知识只是每个人能学到的外部物理世界模型的一小部分。

- 第四阶段:数学和科学产生,能对外部规律作高度概括、抽象、凝练,科学能被证实或证伪,在不断改进。

整个过程中,智能始终在做一件事——对外部世界的知识做编码。但要搞清楚,知识本身并不是智能,知识是智能活动的结果;通过观测和感知外部信号,从中抽取描述外部世界规律的能力,也就是 “学习”,才是智能。

现在很多人对大模型的误解,就是把知识当成了智能。如果一个系统仅是拥有知识,而没有更新和修正自身已有知识的机制,它仍然没有智能。

所以再大的大模型现在也没有智能,GPT-1 没有,GPT-2 没有,GPT-3 同样没有。但结合 OpenAI 工程师的不断研发和改进,GPT 的整个迭代过程是有智能的。这就像 DNA 本身没有智能,但它不断随机变异,再被自然界选择这个过程,具备了智能。

晚点:你总结的这四个智能阶段,是在模仿地球上的生物智能。机器智能有没有可能有不同的机制?

马毅 :有可能。这就要回到对智能的严谨定义——真正的智能应该能自主获取新知识、修正已有认知。自然界的智能至少是一个可行解,虽然未必是最优解。

但至少现在看来,自然界的智能在效率上,比我们当前实现人工智能的方法不知道高多少倍。我们还停留在类似单细胞生命的阶段,主要耗费大量资源一版版训模型,系统还缺乏主动学习和纠错能力。

这也能解释,为什么杨立昆(Yann LeCun,图灵奖得主)经常说,现在的大模型还不如猫、狗聪明——因为大模型只有静态知识,没有像动物那样自主纠错、适应环境、产生个体记忆并不断修正的能力。

现在很多模型在尝试像人一样做推理,但主要是靠死记硬背,并没有真正理解,它都无法自己产生抽象自然数的概念。所以我常说,这个时代需要重新严谨定义图灵测试。

晚点:很多人认为图灵测试已经通过了。

马毅 :实际上并没有。科学、严谨地看,刷题提分不是智能的充分证明,要设计合理的测试方式区分生搬硬套还是真的懂,目前缺乏验证大模型理解、抽象和泛化能力的科学评估方法。

机器智能的机制仍未完全明朗,炮弹很难连续两次打进同一个坑里

晚点:和当前 AI 发展直接相关的是机器智能的历史,去年我们聊到过,你认为目前对这部分历史的一些常见理解并不准确,而这又会影响当下的一些学术判断——比如 AI 的起点不是在 1956 年的达特茅斯会议,而是更早之前的控制论、信息论等。

马毅 :对,达特茅斯会议是计算机科学视角下的 AI 起点,但更广义看,对智能的研究开始于 1940 年代研究动物智能和智能本身的特征。

从智能特征出发,引出了一系列相关重要成果:

- 发现神经网络特征,在 40 年代构造了第一个神经网络的数学模型。

- 控制论,认识到闭环反馈是生物改进学习和自适应的基本机制。

- 信息论,人造系统如何像大脑那样对外部世界信息编码、解码。

- 博弈论,当动物或人类处于未知环境时,如何提高自身决策能力。

图灵正是受这些研究启发,开始思考如何区分机器与人类智能,在 50 年代提出了 “图灵测试”。而 40 年代的研究可以看作是一种 “维纳测试”(维纳是控制论的提出者),主要是区分机器和动物。这又启发了 1956 年,一群年轻人开始研究人类智能特有的特征。

晚点:维纳、香农当时去研究控制论、信息论的背景是什么?为什么 1940 年代,科学家成批关注动物智能?

马毅 :答案很简单,打仗。比如大炮怎么能有效追踪飞机?这和动物捕猎过程相似。科学家想搞清楚,动物为什么捕猎时反应又快又敏捷,还很稳定,而且决策能力能不断提升。

冯·诺依曼提出现代计算机构架(冯·诺依曼架构),就是为了实现维纳的控制论设想————用计算框架实现类似动物的反馈、决策和优化机制。他的手稿也描述了,维纳控制论如何启发了他的博弈论。

晚点:到 1956 年的达特茅斯会议,明斯基、麦卡锡等人对智能的研究有了什么不同?

马毅 :当时信息论和控制论已建立得相对完善了,所以这些年轻人想找这些理论框架还没触及的人类智能领域,包括逻辑、抽象能力等。

他们也不想跟随主流。我觉得这对现在的年轻人也是启发,要出头,就别总想随大流。

晚点:所以对应到前面说的四种智能机制,他们是想研究数学、科学的那部分智能?

马毅 :对,是最后一层。但他们只是在研究这些现象,并没有解释这些机制是怎么产生的——人类大脑到底在几千年前发生了什么变化,才开始从仅能从经验中获得知识发展到有抽象、逻辑能力。这种新能力和我们从观测物理信号中提取知识的机制是否一致?现在还不完全清楚。后者主要是通过去噪、压缩。

晚点:可以更清楚定义一下这里的去噪、压缩的意思吗?因为有人也会认为牛顿定律等物理公式也是一种 “压缩”。

马毅 :这里指动物和人都有的直觉性能力产生的机制。比如在发现重力的数学表达之前,动物和人的大脑早就对重力 “建模” 了,所以我们踢球时能预判轨迹,一个物体掉落,能接住,而且这种预判非常精准。这是通过神经网络结构形成记忆,完成了预测。一些脑科学的研究指向这个过程是在做 “压缩”,比如猴子的大脑会把高维信息压缩到低维子空间。现在的 Diffusion Model (扩散模型,主流的视觉生成模型结构)就是在做类似的事。

而当人类有了数学和科学,又高度概括和抽象了原本从经验学到的东西,还能互相传授,能举一反三到很多情况。所以这两种方式(直觉和物理公式)都能预测外部世界,但它们的预测机制和泛化性不一样。

晚点:如果以 40 年作为智能研究的起点,至今的 80 多年里,整个人工智能或者说机器智能发展中有哪些关键时刻?

马毅 :如果看深度学习、神经网络这条线,大致的过程是:

- 1940 年代,有了单个神经元的数学模型,最初大家忘乎所以,后来发现远不能模拟智能,神经网络进入第一次低谷;

- 1980 年代,通过视觉猫的视觉系统,发现了卷积性质,出现了卷积神经元,最早由日本科学家福岛邦彦提出,89 年时,杨立昆将其实现(CNN 卷积神经网络),并取得了不错的成果。同期,Hinton 为实现自编码做了大量尝试,也运用了一些物理学思路,去年诺奖的物理学奖也发给了他。不过自编码当时没引起重视。这之后,这个领域(深度学习)又变得很冷。

- 2012 年,新的决定性因素是有了足够的数据和 GPU 算力助力,深度学习得以真正爆发,成为转折点,随后扩展到图像、语音、语言、蛋白质等多个领域。

最近的十几年,神经网络的进步主要就是靠经验试错、不断淘汰优化,一步步走到今天。

晚点:这其中有什么共通的规律吗?

马毅 :说实话,还真没什么特别明显的规律。因为一直以来深度学习都缺乏第一性原理,智能在做什么(目的)不很清楚,学习机制也不很清楚。

但有两条线索:一是从生物学获取灵感,比如单个神经元的建模、神经元排列方式、卷积结构、大脑皮层组织方式等,Hinton 很多早期理论创新就是受神经科学启发。二是工程优化,不断试错、改进模型结构,期间诞生了大量结构,不少已经湮灭在历史里。它确实像早期的生命进化。

晚点:这会让做 AI 研究有一种宿命感吗?一个方向,一个研究者的个人前途好像比较难被预测。

马毅 :如果继续靠试错为主的方法论,确实会有运气成分。一个现象是,新进展、新框架的提出,往往不是哪个团队系统性推进的结果,而是像打炮一样,一会打这儿,一会儿打那儿——一会儿 DeepMind、一会儿 OpenAI、一会儿 DeepSeek,比较随机。因为现在的进步主要是靠经验和资源。

总有人问我这家大模型公司值不值得投,或者那家大模型公司值不值得投?我的意见都是,炮弹一般不会连续两次落在同一个弹坑里。除非真有方法创新,真能有系统、有规律地改进。

晚点:在对智能的机制理解还不完善的情况下,你觉得现在工业界靠不停去试带来的进展,能持续多久?

马毅 :现在预训练已经到了边际收益递减的阶段。Grok-3 用了 20 万张卡,提升才 1% 多一点, GPT-5 到现在还没出来。(注:指 Grok-3 发布后,在 Chatbot Arena 上比之前的冠军的 PK 评分提升了 1.6%。)

就像靠基因突变和自然选择进化的阶段,生命也在前进,但走了 30 亿年也主要是单细胞生物。现在大模型也卡在这种低效演化里。

科研品味来自勇气和能力:一旦找对方向,证据会带来自信

晚点:技术 “品味” 对探索未知领域很重要。这里的 “品味” 是指——当一个领域没有太多可跟随的参照物时,能自己提出对的问题、做出技术判断,而且自信的能力,尤其是当中间出现波折时,仍能自信。其实你经历过这个过程,1995 年你从清华去伯克利时,目前变成 AI 主流方法的神经网络还很冷门,你是怎么逐渐进入这个领域的?

马毅 :我是先在学生时代意识到了视觉的重要性。当时我在伯克利机器人组,我导师 Shankar(Shankar Sastry),还有师兄李泽湘都在做控制。

那时已经有了双足行走的机器人,能跑、能跳、能上楼梯,但都是提前编程好的,只能做预先设定的动作。

我老师就跟我说,你看这些机器人系统控制做得挺好,但它们是 “瞎” 的,没有大脑、眼睛,反馈,只有动作输出,没有信息输入,怎么闭环呢?这就是瞎动。

所以 Shankar 的组是第一个开始做视觉的,要让机器人能独立适应外部环境,当时我们是研究三维视觉,探索机器如何感知和重建外部世界。

到了我博士毕业找工作时,还是没有这个就业领域。我在伊利诺伊是在系统组教控制,没有 Computer Vision、3D Vision。比三维重建更冷的是视觉识别,所以李飞飞在自传里也说她 2006-2007 毕业时不好找工作。

就是在这样的环境下,一群研究者自发地探索感知、视觉重建、识别等问题。那时 CVPR 开会也就几百人,一个大教室就能坐下。

(注:CVPR 为计算机视觉领域顶级学术会议,2024 年 CVPR 参会者超过 1.2 万人。)

晚点:在找教职都找不到对口方向时,你还是觉得这个研究方向有前途。这种相信来自什么?

马毅 :证据。科学探索本身充满不确定性,十个想法可能九个都失败,但一旦找对了方向,证据会给你带来自信。自信不是盲目乐观,而是来自数学、实验和逻辑上的验证——哪怕别人暂时还看不懂。

晚点:什么因素或经历可以帮助塑造更好的技术品味?

马毅 :一是学术价值观。真正做科研要探索未知、打破常规,不应从众。能做出新东西的,往往是特立独行、能看到主流不足、发现现存问题的人,虽然他们一开始往往很难得到认可。

二是通过严谨学术训练,有严密的逻辑和实验能力。我读数学硕士时,老师就跟我说:“做数学家的第一条,就是把自己训练成世界上最难被说服的人。这样,当你找到一个证明并能说服自己时,才足以严谨到说服所有人。” 实验也要很严谨——数据、报告、现象判断以及假设验证,都得严谨,不要轻易下结论。

所以科研要有探索未知的勇气,也要有能力,这是形成科研品味的本钱。只有特立独行、没有训练,可能会变成 “民科”。最可怕的是自己不知道自己是错的。

晚点:伯克利对你的影响是什么?我们也访谈过你的师兄李泽湘,他当时说,伯克利对他的世界观和做科研的方式影响很大,那儿的氛围特别平等、自由,大家喜欢讨论、争论,不存在权威。

马毅 :这非常了不起。我读博时,导师手下有 18 个学生,来自 13 个国家,大家没有等级观念,就是一心想把事情搞明白。

后来我自己在伯克利当教授,带的一些学生毕业后回来聊天,都说特别怀念这里,因为这儿的交流氛围很好,可以完全跨组开放交流。我组里就十几个学生,但开组会时经常有三四十号人来一起听,没有秘密。这在其他地方并不常见。

晚点:这也是对品味的一种培养,让研究者有更广阔的视角。

马毅 :对,后来我发现,在伯克利,从同学身上学到的比从老师那儿还多,尤其是实用技能。学生间的合作也常常跨组,一起写论文、改代码、做各自擅长的事,你帮我,我帮你。这能提升人的综合素质。我也特别希望在港大,还有中国其他大学看到这样的氛围。

晚点:现在一些企业家和创业者并没有系统的 AI 研究背景,但他们在努力学习 AI,比如张一鸣就请冯佳时来讲解 AI 技术。你觉得他们能通过学习,对技术理解到什么程度?这也会影响投资和业务判断。

马毅 :如果只是了解 AI 技术在做什么,有扎实的本科数学和科学背景就够了。要更深入,就需要更深的知识储备。我们去年在港大还真做了一件相关的事。

因为过去几年,不少企业家会来找我和同事请教 AI 问题,大家焦虑于要不要用 AI?怎么用?值不值得投?但我们每个老师也只深入了解自己研究的那部分。所以我们在港大开设了一个面向 CEO 和投资人的专门讲 AI 的班,类似 EMBA,由数据与计算学院主导,一方面让科研老师用通俗方式提供技术介绍和证据,另一方面邀请一线科技企业的人来分享真实的使用 AI 的经验——成功也好,踩过坑也行。

这个班原计划招 40-50 人,结果第一期来了 80 多位,主要是国内头部企业和上市公司创始人、企业高管和投资人。

晚点:这些 CEO 同学们的科学素养如何?

马毅 :总体很好。他们都是成功的企业家,更想了解技术的本质,学习态度也诚恳,并非来交朋友的。这个班的出勤率很高,前面几个核心模块几乎全勤。

晚点:他们应该也会问一个问题——判断一个 AI 新成果靠不靠谱,有没有什么简单的原则或方法?

马毅 :看是否有严格的证据,比如真实实验数据,而不是只看自媒体里讲的表现好的案例。我们也会坦诚分享负面案例或不确定的判断。

给港大所有本科生讲 AI,重要的是训练思考,不是给出答案

晚点:去年我们聊时,你提到当时港大正在计划 AI Literacy 课程,让 “AI 通识课” 成为包括文科、社科、医科、商科在内的所有本科生的必修课。因为我们未来都要和机器共处,需要理解机器。今年春季学期,港大 AI 通识课已开始试上,秋季会开始包含 4000 多名全部大一新生。这个课程怎么设计的?

马毅 :我们分了几个模块:

- 第一,要让学生搞清楚 AI 和智能的基本概念;

- 第二,我非常强调历史,这部分是我自己在教,会涵盖生命起源时的智能、机器智能的历史;

- 第三,介绍具体技术本身,比如语言模型、图像处理、机器人等,讲这些技术的概念、作用和局限性;

- 第四是伦理问题,引导学生思考如何正确面对和使用 AI 工具,这涉及隐私保护、安全、法律规范等。

教学上,每个模块都有团队支持,每节课由多位老师协作设计,内容每年更新,确保学生接触到新的 AI 发展与研究成果。

晚点:最核心是想教给学生什么?

马毅 :总的来说,是旨在让学生:一、了解 AI 的历史和概念;二、了解当前技术;三、思考 AI 技术对个人、行业乃至社会的可能影响。

但传授知识本身还不是最重要的,最终目的是提升学生的独立思考能力。所以我也跟授课老师强调,现在很多问题没有标准答案,要引导学生学会搜集证据、形成自己的想法,不要人云亦云。

因为技术会不断改进,炒作会反复出现。即便我们把当下知识解释清楚了,如果学生不能独立思考,以后还是会被误导。AI 本身是训练批判性独立思维的很好的主题。

晚点:这门课程怎么描述 AI 和人的关系?

马毅 :课程会讲清楚智能的本质,然后让学生自己去判断如何与 AI 交互。关键在于启发思考,不是灌输答案。

晚点:学生们可能会有天马行空的畅想——AI 会不会产生自己的意识?AI 会是一种新生命和物种吗?你会怎么解答?

马毅 :至少目前,AI 还在做机械的数据压缩和生成。学生了解这一点后,也就知道如何与当下的 AI 打交道了。至于未来,当智能机制被更全面地发现、实现,系统真正能自主学习、独立思考时,个人和社会该如何应对?我们现在可以探讨,但希望他们能客观认识当前的技术。

晚点:维纳在《人有人的用处》里讨论过智能机器对社会伦理和政治的影响。80 年前,他已在思考未来技术可能会压迫人,威胁人的尊严和价值感。现在关于 AI 和人的未来也有 “合作共生” 和 “对立” 的两种观点。从感性角度来说,你更倾向哪一派?

马毅 :我没有确定答案。从历史看,智能机制并非人类独有,许多动物也有,自然界早把它 “开源” 了。人类能成为世界主宰,也是进化的阶段性结果。这些不同的智能过去可以共存,未来也可能有共存方式。

但另一方面,一旦机器能实现智能机制,在记忆、推理、学习效率上可能远远超越人类。那时我们该怎么办?这得留给大家一起思考。

A close-looped system is for an open world, no matter how small it is

晚点:你现在致力于研究怎么让机器系统有闭环反馈纠错机制,也就是向第二阶段的有神经系统和记忆的智能演进。这个方向是主流还是少数派?

马毅 :其实从早期研究动物智能时就发现,几乎所有高级动物都是靠闭环反馈来纠错、学习、提升决策能力。这不是我们发明的,是自然界的选择。我相信它不是某一种方向,而可能是唯一的方向。真正有效的智能系统,都具备闭环反馈机制。

晚点:我和工业界的一些人交流你们团队的研究成果时,他们觉得这是故事会,是 “刷存在感”。

马毅 :甚至还没有存在感了。但我们的初衷就是把问题搞明白,我们的信心也正来源于此。Hinton 前 30 年都没什么存在感,他的信心不来自一定找到了正确答案,而是知道自己提出了对的问题。

当然科学需要证据,不能只讲原理。我们过去几年就是在让白盒大模型、闭环反馈机制变得可实现、可验证。这个过程很痛苦,也可能很漫长。Hinton 也是等了很多年,直到条件成熟,有了更让人信服的验证,才被接受。这是我们现在正经历的过程。

晚点:你以前经历过类似过程吗?

马毅 :我现在被引用最多的成果,一度就没有任何会议接收,大家觉得结果太好,可能作弊了。后来我们花了一个暑假做严谨对比,才被期刊接收。

科学家也是人,学术圈也有 “回音壁效应”,多数人相信当下的主流,不愿花精力理解新 “杂音”。就像这两年拿了诺奖的 Karikó(卡塔林·卡里科,生物化学家) 和 Ambros(维克托·安布罗斯,发育生物学家) ,一个当年被宾大降级降薪,一个没拿到哈佛的教职。

我常用这些故事激励年轻人:很多人觉得现在的方法就是通向 AGI 的阳光大道,其实阳光之下,新发现还会出现,那些没被看到的东西未来会颠覆认识。

晚点:具体到你对白盒大模型和闭环反馈机制的研究,从我们去年聊到现在,有哪些新进展?

马毅 :这分两部分,一是原理发现和初步验证,二是大规模工程实现和验证。

白盒大模型,之前我们在学校已经验证了方法可行,现在在公司(马毅创立的忆生科技)是做产业化——用大量数据,在更大规模上做验证或改进效率。

这类偏工程化的工作往往不是学校愿意做和应该做的。学界应该做与工业界互补的东西:就是发现新原理和方向。这也是为什么要创立公司来做后面一部分的工作。过去十年一个让人失望的现象是,学术界被工业界牵着走。

(注:白盒大模型是指,为 Transformer 结构大模型里,从高维到低维的压缩过程中提供数学解释,以去除经验性的冗余,提高效率和效果。)

在闭环反馈自主纠错机制这块儿,我们在尝试不同路径。现在的主流是用单一模型做开环系统,我们认为这并不自然。大脑不是单一的一个环,而是多个环在并行。大脑皮层中有几十万个形态相似的皮质柱(cortical column)在各自编码、解码,协同处理信息,每个都是闭环系统。我们正在探索构建更接近人类大脑形态的架构,实现多路闭环反馈。

晚点:所以这个大的闭环系统的结构是很多模型组合在一起,其中每一个都是闭环的?

马毅 :至少人脑的形态是这样一个并行、分布式的、有层次的结构。人类大脑只有前额叶的一小片区域在处理自然语言,其他绝大部分在处理视觉、触觉、声音等其他物理信号,小脑则负责运动控制。

晚点:闭环系统的一个特点是,能在开放的真实物理世界中运转和自己学习,它会更多指向具身智能吗?

马毅 :对。我常说,“A close-looped system is for an open world, no matter how small it is.” 哪怕小如一只蚂蚁,也能在大世界里自主学习。

相反, “An open-looped system is for a close world, no matter how big it is.” 所以一个端对端的开环系统,只能应对封闭世界,这个模型不管多大,也不能自我改进。

晚点:端到端和闭环是互斥的吗?

马毅 :不完全互斥,这是两件事。目前为止,大模型训练好后,如果不借助人为的微调或迭代就不能改进了。这就像只靠 DNA 来学习的阶段,从受精卵形成那一刻起,个体能力就被预定了,生物完全靠本能而活。

晚点:看好 VLA 方法的人会说,这个方法确实提升了泛化性。

马毅 :这就好比造飞机,现在的飞机能飞、能载客,也能盈利,但这是不是飞行最高效的方式?未必。

当前的 VLA 是通过大量数据和算力,把感知、视觉、语言和动作整合在一起,它能提升机器人性能,不过方式比较简单粗暴。

晚点:什么时候能实现更优雅的闭环机制呢?

马毅 :You never know. 虽然概念很清晰,但实现时,工程是否到位、方法是否正确,都是变数。GPT 花了好几年才验证效果更好。科技探索关键在于找对方向,方向对了,已经很幸运了。

晚点:探索前沿方向有诸多不确定性,而你现在也创立了公司来做工程实现和验证,公司是需要更确定的发展节奏的。你对处理这二者之间的张力有了什么体会?

马毅 :我一直相信,无论做学问还是做公司,都要有品味和信念。阿尔特曼曾说,GPT 有什么用他一开始也不知道,但他相信让机器理解自然语言这件事值得做。

很多技术在没突破临界点前,看起来都没用,但一旦突破,就可能释放巨大价值。如果等看到特别明确的收益才做,那是纯商业公司,而不是科技公司。

晚点:当你身边现在的一些非 AI 研究者,为 AI 感到焦虑或困惑时,你会和他们说什么?

马毅 :焦虑来自不了解。所以我喜欢写书,只有自己梳理一遍,才会发现哪里没弄明白。

AI 现在还是一个黑盒子,正因为是黑盒,一部分人觉得很难搞明白,另一部分人会利用它的模糊性炒作或制造恐惧。迷信是这么产生的,(某些)权力也是这么产生的。

题图:2025 年 4 月底,马毅在人工智能领域顶会 ICLR(International Conference on Learning Representations,国际表征学习大会) 上做学术报告。来源:马毅。

港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

理解智能,并不只是研究者和工程师的课题。

来源:晚点LatePost文:程曼祺 刘倩 《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵 《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

推理模型没有在真正 “推理”;DeepSeek 这样的开源赶超者一定会出现

晚点 :o1、R1 等推理模型是当前 AI 领域最主流和重要的方向,在你的认知里,它们是真的在做推理吗?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :现在的 o1 和 R1 更多处于你刚才说的第一层吗?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :现在推理模型展现的长思维链(long CoT)——它看起来能像人那样一步一步地思考,这实际上是什么?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

一是 Supervised Fine-Tuning(SFT,监督微调),通过提供范例,让模型学习并模仿其中的解题思路;

另一种就是 Reinforcement Learning(强化学习)。通过 “做对加分、做错扣分”,引导模型逐步掌握任务解法,它尤其适用编程、数学题这类有明确对错的推理任务。

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵 《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :DeepSeek 的影响力狂潮说明了什么?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

(注:根据热力学第二定律,封闭系统的熵不断增长,即混乱度不断提升,在系统平衡时达到最大值;熵减则是混乱度减少的过程。)

晚点 :低等生物也能学习和预测外部世界的规律吗?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :大模型是不是主要就在这个阶段?因为现在的大模型,训好一版后不能自己迭代,需要人帮助它微调或重新训一版才能提升性能。

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :物种层面的强化学习是生命前 30 多亿年的状态,最近 5 亿年发生了什么?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :到这里是动物也有的智能,当生命进化到人类诞生后,智能又有了什么变化?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵 《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :你总结的这四个智能阶段,是在模仿地球上的生物智能。机器智能有没有可能有不同的机制?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :很多人认为图灵测试已经通过了。

马毅 :实际上并没有。科学、严谨地看,刷题提分不是智能的充分证明,要设计合理的测试方式区分生搬硬套还是真的懂,目前缺乏验证大模型理解、抽象和泛化能力的科学评估方法。

机器智能的机制仍未完全明朗,炮弹很难连续两次打进同一个坑里

晚点 :和当前 AI 发展直接相关的是机器智能的历史,去年我们聊到过,你认为目前对这部分历史的一些常见理解并不准确,而这又会影响当下的一些学术判断——比如 AI 的起点不是在 1956 年的达特茅斯会议,而是更早之前的控制论、信息论等。

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :维纳、香农当时去研究控制论、信息论的背景是什么?为什么 1940 年代,科学家成批关注动物智能?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :到 1956 年的达特茅斯会议,明斯基、麦卡锡等人对智能的研究有了什么不同?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :所以对应到前面说的四种智能机制,他们是想研究数学、科学的那部分智能?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :可以更清楚定义一下这里的去噪、压缩的意思吗?因为有人也会认为牛顿定律等物理公式也是一种 “压缩”。

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :如果以 40 年作为智能研究的起点,至今的 80 多年里,整个人工智能或者说机器智能发展中有哪些关键时刻?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :这其中有什么共通的规律吗?

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :这会让做 AI 研究有一种宿命感吗?一个方向,一个研究者的个人前途好像比较难被预测。

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵

晚点 :在对智能的机制理解还不完善的情况下,你觉得现在工业界靠不停去试带来的进展,能持续多久?

马毅 :现在预训练已经到了边际收益递减的阶段。Grok-3 用了 20 万张卡,提升才 1% 多一点, GPT-5 到现在还没出来。(注:指 Grok-3 发布后,在 Chatbot Arena 上比之前的冠军的 PK 评分提升了 1.6%。)

就像靠基因突变和自然选择进化的阶段,生命也在前进,但走了 30 亿年也主要是单细胞生物。现在大模型也卡在这种低效演化里。

科研品味来自勇气和能力:一旦找对方向,证据会带来自信

晚点 :技术 “品味” 对探索未知领域很重要。这里的 “品味” 是指——当一个领域没有太多可跟随的参照物时,能自己提出对的问题、做出技术判断,而且自信的能力,尤其是当中间出现波折时,仍能自信。其实你经历过这个过程,1995 年你从清华去伯克利时,目前变成 AI 主流方法的神经网络还很冷门,你是怎么逐渐进入这个领域的?

马毅 :我是先在学生时代意识到了视觉的重要性。当时我在伯克利机器人组,我导师 Shankar(Shankar Sastry),还有师兄李泽湘都在做控制。

那时已经有了双足行走的机器人,能跑、能跳、能上楼梯,但都是提前编程好的,只能做预先设定的动作。

我老师就跟我说,你看这些机器人系统控制做得挺好,但它们是 “瞎” 的,没有大脑、眼睛,反馈,只有动作输出,没有信息输入,怎么闭环呢?这就是瞎动。

所以 Shankar 的组是第一个开始做视觉的,要让机器人能独立适应外部环境,当时我们是研究三维视觉,探索机器如何感知和重建外部世界。

到了我博士毕业找工作时,还是没有这个就业领域。我在伊利诺伊是在系统组教控制,没有 Computer Vision、3D Vision。比三维重建更冷的是视觉识别,所以李飞飞在自传里也说她 2006-2007 毕业时不好找工作。

就是在这样的环境下,一群研究者自发地探索感知、视觉重建、识别等问题。那时 CVPR 开会也就几百人,一个大教室就能坐下。

(注:CVPR 为计算机视觉领域顶级学术会议,2024 年 CVPR 参会者超过 1.2 万人。)

晚点 :在找教职都找不到对口方向时,你还是觉得这个研究方向有前途。这种相信来自什么?

马毅 :证据。科学探索本身充满不确定性,十个想法可能九个都失败,但一旦找对了方向,证据会给你带来自信。自信不是盲目乐观,而是来自数学、实验和逻辑上的验证——哪怕别人暂时还看不懂。

晚点 :什么因素或经历可以帮助塑造更好的技术品味?

马毅 :一是学术价值观。真正做科研要探索未知、打破常规,不应从众。能做出新东西的,往往是特立独行、能看到主流不足、发现现存问题的人,虽然他们一开始往往很难得到认可。

二是通过严谨学术训练,有严密的逻辑和实验能力。我读数学硕士时,老师就跟我说:“做数学家的第一条,就是把自己训练成世界上最难被说服的人。这样,当你找到一个证明并能说服自己时,才足以严谨到说服所有人。” 实验也要很严谨——数据、报告、现象判断以及假设验证,都得严谨,不要轻易下结论。

所以科研要有探索未知的勇气,也要有能力,这是形成科研品味的本钱。只有特立独行、没有训练,可能会变成 “民科”。最可怕的是自己不知道自己是错的。

晚点 :伯克利对你的影响是什么?我们也访谈过你的师兄李泽湘,他当时说,伯克利对他的世界观和做科研的方式影响很大,那儿的氛围特别平等、自由,大家喜欢讨论、争论,不存在权威。

马毅 :这非常了不起。我读博时,导师手下有 18 个学生,来自 13 个国家,大家没有等级观念,就是一心想把事情搞明白。

后来我自己在伯克利当教授,带的一些学生毕业后回来聊天,都说特别怀念这里,因为这儿的交流氛围很好,可以完全跨组开放交流。我组里就十几个学生,但开组会时经常有三四十号人来一起听,没有秘密。这在其他地方并不常见。

晚点 :这也是对品味的一种培养,让研究者有更广阔的视角。

马毅 :对,后来我发现,在伯克利,从同学身上学到的比从老师那儿还多,尤其是实用技能。学生间的合作也常常跨组,一起写论文、改代码、做各自擅长的事,你帮我,我帮你。这能提升人的综合素质。我也特别希望在港大,还有中国其他大学看到这样的氛围。

晚点 :现在一些企业家和创业者并没有系统的 AI 研究背景,但他们在努力学习 AI,比如张一鸣就请冯佳时来讲解 AI 技术。你觉得他们能通过学习,对技术理解到什么程度?这也会影响投资和业务判断。

马毅 :如果只是了解 AI 技术在做什么,有扎实的本科数学和科学背景就够了。要更深入,就需要更深的知识储备。我们去年在港大还真做了一件相关的事。

因为过去几年,不少企业家会来找我和同事请教 AI 问题,大家焦虑于要不要用 AI?怎么用?值不值得投?但我们每个老师也只深入了解自己研究的那部分。所以我们在港大开设了一个面向 CEO 和投资人的专门讲 AI 的班,类似 EMBA,由数据与计算学院主导,一方面让科研老师用通俗方式提供技术介绍和证据,另一方面邀请一线科技企业的人来分享真实的使用 AI 的经验——成功也好,踩过坑也行。

这个班原计划招 40-50 人,结果第一期来了 80 多位,主要是国内头部企业和上市公司创始人、企业高管和投资人。

晚点 :这些 CEO 同学们的科学素养如何?

马毅 :总体很好。他们都是成功的企业家,更想了解技术的本质,学习态度也诚恳,并非来交朋友的。这个班的出勤率很高,前面几个核心模块几乎全勤。

晚点 :他们应该也会问一个问题——判断一个 AI 新成果靠不靠谱,有没有什么简单的原则或方法?

马毅 :看是否有严格的证据,比如真实实验数据,而不是只看自媒体里讲的表现好的案例。我们也会坦诚分享负面案例或不确定的判断。

给港大所有本科生讲 AI,重要的是训练思考,不是给出答案

晚点 :去年我们聊时,你提到当时港大正在计划 AI Literacy 课程,让 “AI 通识课” 成为包括文科、社科、医科、商科在内的所有本科生的必修课。因为我们未来都要和机器共处,需要理解机器。今年春季学期,港大 AI 通识课已开始试上,秋季会开始包含 4000 多名全部大一新生。这个课程怎么设计的?

马毅 :我们分了几个模块:

第一,要让学生搞清楚 AI 和智能的基本概念;

第二,我非常强调历史,这部分是我自己在教,会涵盖生命起源时的智能、机器智能的历史;

第三,介绍具体技术本身,比如语言模型、图像处理、机器人等,讲这些技术的概念、作用和局限性;

第四是伦理问题,引导学生思考如何正确面对和使用 AI 工具,这涉及隐私保护、安全、法律规范等。

教学上,每个模块都有团队支持,每节课由多位老师协作设计,内容每年更新,确保学生接触到新的 AI 发展与研究成果。

晚点 :最核心是想教给学生什么?

马毅 :总的来说,是旨在让学生:一、了解 AI 的历史和概念;二、了解当前技术;三、思考 AI 技术对个人、行业乃至社会的可能影响。

但传授知识本身还不是最重要的,最终目的是提升学生的独立思考能力。所以我也跟授课老师强调,现在很多问题没有标准答案,要引导学生学会搜集证据、形成自己的想法,不要人云亦云。

因为技术会不断改进,炒作会反复出现。即便我们把当下知识解释清楚了,如果学生不能独立思考,以后还是会被误导。AI 本身是训练批判性独立思维的很好的主题。

晚点 :这门课程怎么描述 AI 和人的关系?

马毅 :课程会讲清楚智能的本质,然后让学生自己去判断如何与 AI 交互。关键在于启发思考,不是灌输答案。

晚点 :学生们可能会有天马行空的畅想——AI 会不会产生自己的意识?AI 会是一种新生命和物种吗?你会怎么解答?

马毅 :至少目前,AI 还在做机械的数据压缩和生成。学生了解这一点后,也就知道如何与当下的 AI 打交道了。至于未来,当智能机制被更全面地发现、实现,系统真正能自主学习、独立思考时,个人和社会该如何应对?我们现在可以探讨,但希望他们能客观认识当前的技术。

晚点 :维纳在《人有人的用处》里讨论过智能机器对社会伦理和政治的影响。80 年前,他已在思考未来技术可能会压迫人,威胁人的尊严和价值感。现在关于 AI 和人的未来也有 “合作共生” 和 “对立” 的两种观点。从感性角度来说,你更倾向哪一派?

马毅 :我没有确定答案。从历史看,智能机制并非人类独有,许多动物也有,自然界早把它 “开源” 了。人类能成为世界主宰,也是进化的阶段性结果。这些不同的智能过去可以共存,未来也可能有共存方式。

但另一方面,一旦机器能实现智能机制,在记忆、推理、学习效率上可能远远超越人类。那时我们该怎么办?这得留给大家一起思考。

A close-looped system is for an open world, no matter how small it is

晚点 :你现在致力于研究怎么让机器系统有闭环反馈纠错机制,也就是向第二阶段的有神经系统和记忆的智能演进。这个方向是主流还是少数派?

马毅 :其实从早期研究动物智能时就发现,几乎所有高级动物都是靠闭环反馈来纠错、学习、提升决策能力。这不是我们发明的,是自然界的选择。我相信它不是某一种方向,而可能是唯一的方向。真正有效的智能系统,都具备闭环反馈机制。

晚点 :我和工业界的一些人交流你们团队的研究成果时,他们觉得这是故事会,是 “刷存在感”。

马毅 :甚至还没有存在感了。但我们的初衷就是把问题搞明白,我们的信心也正来源于此。Hinton 前 30 年都没什么存在感,他的信心不来自一定找到了正确答案,而是知道自己提出了对的问题。

当然科学需要证据,不能只讲原理。我们过去几年就是在让白盒大模型、闭环反馈机制变得可实现、可验证。这个过程很痛苦,也可能很漫长。Hinton 也是等了很多年,直到条件成熟,有了更让人信服的验证,才被接受。这是我们现在正经历的过程。

晚点 :你以前经历过类似过程吗?

马毅 :我现在被引用最多的成果,一度就没有任何会议接收,大家觉得结果太好,可能作弊了。后来我们花了一个暑假做严谨对比,才被期刊接收。

科学家也是人,学术圈也有 “回音壁效应”,多数人相信当下的主流,不愿花精力理解新 “杂音”。就像这两年拿了诺奖的 Karikó(卡塔林·卡里科,生物化学家) 和 Ambros(维克托·安布罗斯,发育生物学家) ,一个当年被宾大降级降薪,一个没拿到哈佛的教职。

我常用这些故事激励年轻人:很多人觉得现在的方法就是通向 AGI 的阳光大道,其实阳光之下,新发现还会出现,那些没被看到的东西未来会颠覆认识。

晚点 :具体到你对白盒大模型和闭环反馈机制的研究,从我们去年聊到现在,有哪些新进展?

马毅 :这分两部分,一是原理发现和初步验证,二是大规模工程实现和验证。

白盒大模型,之前我们在学校已经验证了方法可行,现在在公司(马毅创立的忆生科技)是做产业化——用大量数据,在更大规模上做验证或改进效率。

这类偏工程化的工作往往不是学校愿意做和应该做的。学界应该做与工业界互补的东西:就是发现新原理和方向。这也是为什么要创立公司来做后面一部分的工作。过去十年一个让人失望的现象是,学术界被工业界牵着走。

(注:白盒大模型是指,为 Transformer 结构大模型里,从高维到低维的压缩过程中提供数学解释,以去除经验性的冗余,提高效率和效果。)

在闭环反馈自主纠错机制这块儿,我们在尝试不同路径。现在的主流是用单一模型做开环系统,我们认为这并不自然。大脑不是单一的一个环,而是多个环在并行。大脑皮层中有几十万个形态相似的皮质柱(cortical column)在各自编码、解码,协同处理信息,每个都是闭环系统。我们正在探索构建更接近人类大脑形态的架构,实现多路闭环反馈。

晚点 :所以这个大的闭环系统的结构是很多模型组合在一起,其中每一个都是闭环的?

马毅 :至少人脑的形态是这样一个并行、分布式的、有层次的结构。人类大脑只有前额叶的一小片区域在处理自然语言,其他绝大部分在处理视觉、触觉、声音等其他物理信号,小脑则负责运动控制。

晚点 :闭环系统的一个特点是,能在开放的真实物理世界中运转和自己学习,它会更多指向具身智能吗?

马毅 :对。我常说,“A close-looped system is for an open world, no matter how small it is.” 哪怕小如一只蚂蚁,也能在大世界里自主学习。

相反, “An open-looped system is for a close world, no matter how big it is.” 所以一个端对端的开环系统,只能应对封闭世界,这个模型不管多大,也不能自我改进。

晚点 :端到端和闭环是互斥的吗?

马毅 :不完全互斥,这是两件事。目前为止,大模型训练好后,如果不借助人为的微调或迭代就不能改进了。这就像只靠 DNA 来学习的阶段,从受精卵形成那一刻起,个体能力就被预定了,生物完全靠本能而活。

晚点 :看好 VLA 方法的人会说,这个方法确实提升了泛化性。

马毅 :这就好比造飞机,现在的飞机能飞、能载客,也能盈利,但这是不是飞行最高效的方式?未必。

当前的 VLA 是通过大量数据和算力,把感知、视觉、语言和动作整合在一起,它能提升机器人性能,不过方式比较简单粗暴。

晚点 :什么时候能实现更优雅的闭环机制呢?

马毅 :You never know. 虽然概念很清晰,但实现时,工程是否到位、方法是否正确,都是变数。GPT 花了好几年才验证效果更好。科技探索关键在于找对方向,方向对了,已经很幸运了。

晚点 :探索前沿方向有诸多不确定性,而你现在也创立了公司来做工程实现和验证,公司是需要更确定的发展节奏的。你对处理这二者之间的张力有了什么体会?

马毅 :我一直相信,无论做学问还是做公司,都要有品味和信念。阿尔特曼曾说,GPT 有什么用他一开始也不知道,但他相信让机器理解自然语言这件事值得做。

很多技术在没突破临界点前,看起来都没用,但一旦突破,就可能释放巨大价值。如果等看到特别明确的收益才做,那是纯商业公司,而不是科技公司。

晚点 :当你身边现在的一些非 AI 研究者,为 AI 感到焦虑或困惑时,你会和他们说什么?

马毅 :焦虑来自不了解。所以我喜欢写书,只有自己梳理一遍,才会发现哪里没弄明白。

AI 现在还是一个黑盒子,正因为是黑盒,一部分人觉得很难搞明白,另一部分人会利用它的模糊性炒作或制造恐惧。迷信是这么产生的,(某些)权力也是这么产生的。

题图:2025 年 4 月底,马毅在人工智能领域顶会 ICLR(International Conference on Learning Representations,国际表征学习大会) 上做学术报告。来源:马毅。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

《科技素养论文 港大马毅谈智能史:DNA 是最早的大模型,智能的本质是减熵未来知识库 是“欧米伽未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828 进入。

截止到3月31日 ”未来知识库”精选的百部前沿科技趋势报告

(加入未来知识库,全部资料免费阅读和下载)

牛津未来研究院 《将人工智能安全视为全球公共产品的影响、挑战与研究重点》麦肯锡:超级智能机构:赋能人们释放人工智能的全部潜力AAAI 2025 关于人工智能研究未来研究报告斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)壳牌:2025 能源安全远景报告:能源与人工智能(57 页)盖洛普 & 牛津幸福研究中心:2025 年世界幸福报告(260 页)Schwab :2025 未来共生:以集体社会创新破解重大社会挑战研究报告(36 页)IMD:2024 年全球数字竞争力排名报告:跨越数字鸿沟人才培养与数字法治是关键(214 页)DS 系列专题:DeepSeek 技术溯源及前沿探索,50 页 ppt联合国人居署:2024 全球城市负责任人工智能评估报告:利用 AI 构建以人为本的智慧城市(86 页)TechUK:2025 全球复杂多变背景下的英国科技产业:战略韧性与增长路径研究报告(52 页)NAVEX Global:2024 年十大风险与合规趋势报告(42 页)《具身物理交互在机器人 - 机器人及机器人 - 人协作中的应用》122 页2025 - 2035 年人形机器人发展趋势报告 53 页Evaluate Pharma:2024 年全球生物制药行业展望报告:增长驱动力分析(29 页)【AAAI2025 教程】基础模型与具身智能体的交汇,350 页 pptTracxn:2025 全球飞行汽车行业市场研究报告(45 页)谷歌:2024 人工智能短跑选手(AI Sprinters):捕捉新兴市场 AI 经济机遇报告(39 页)【斯坦福博士论文】构建类人化具身智能体:从人类行为中学习《基于传感器的机器学习车辆分类》最新 170 页美国安全与新兴技术中心:2025 CSET 对美国人工智能行动计划的建议(18 页)罗兰贝格:2024 人形机器人的崛起:从科幻到现实:如何参与潜在变革研究报告(11 页)兰德公司:2025 从研究到现实:NHS 的研究和创新是实现十年计划的关键报告(209 页)康桥汇世(Cambridge Associates):2025 年全球经济展望报告(44 页)国际能源署:2025 迈向核能新时代麦肯锡:人工智能现状,组织如何重塑自身以获取价值威立(Wiley):2025 全球科研人员人工智能研究报告(38 页)牛津经济研究院:2025 TikTok 对美国就业的量化影响研究报告:470 万岗位(14 页)国际能源署(IEA):能效 2024 研究报告(127 页)Workday :2025 发挥人类潜能:人工智能(AI)技能革命研究报告(20 页)CertiK:Hack3D:2024 年 Web3.0 安全报告(28 页)世界经济论坛:工业制造中的前沿技术:人工智能代理的崛起》报告迈向推理时代:大型语言模型的长链推理研究综述波士顿咨询:2025 亚太地区生成式 AI 的崛起研究报告:从技术追赶者到全球领导者的跨越(15 页)安联(Allianz):2025 新势力崛起:全球芯片战争与半导体产业格局重构研究报告(33 页)IMT:2025 具身智能(Embodied AI)概念、核心要素及未来进展:趋势与挑战研究报告(25 页)IEEE:2025 具身智能(Embodied AI)综述:从模拟器到研究任务的调查分析报告(15 页)CCAV:2025 当 AI 接管方向盘:自动驾驶场景下的人机交互认知重构、变革及对策研究报告(124 页)《强化学习自我博弈方法在兵棋推演分析与开发中的应用》最新 132 页《面向科学发现的智能体人工智能:进展、挑战与未来方向综述》全国机器人标准化技术委员会:人形机器人标准化白皮书(2024 版)(96 页)美国国家科学委员会(NSB):2024 年研究与发展 - 美国趋势及国际比较(51 页)艾昆纬(IQVIA):2025 骨科手术机器人技术的崛起白皮书:创新及未来方向(17 页)NPL&Beauhurst:2025 英国量子产业洞察报告:私人和公共投资的作用(25 页)IEA PVPS:2024 光伏系统经济与技术关键绩效指标(KPI)使用最佳实践指南(65 页)AGI 智能时代:2025 让 DeepSeek 更有趣更有深度的思考研究分析报告(24 页)2025 军事领域人工智能应用场景、国内外军事人工智能发展现状及未来趋势分析报告(37 页)华为:2025 鸿蒙生态应用开发白皮书(133 页《超级智能战略研究报告》中美技术差距分析报告 2025欧洲量子产业联盟(QuIC):2024 年全球量子技术专利态势分析白皮书(34 页)美国能源部:2021 超级高铁技术(Hyperloop)对电网和交通能源的影响研究报告(60 页)罗马大学:2025 超级高铁(Hyperloop):第五种新型交通方式 - 技术研发进展、优势及局限性研究报告(72 页)兰德公司:2025 灾难性网络风险保险研究报告:市场趋势与政策选择(93 页)GTI:2024 先进感知技术白皮书(36 页)AAAI:2025 人工智能研究的未来报告:17 大关键议题(88 页)安联 Allianz2025 新势力崛起全球芯片战争与半导体产业格局重构研究报告威达信:2025 全球洪水风险研究报告:现状、趋势及应对措施(22 页)兰德公司:迈向人工智能治理研究报告:2024EqualAI 峰会洞察及建议(19 页)哈佛商业评论:2025 人工智能时代下的现代软件开发实践报告(12 页)德安华:全球航空航天、国防及政府服务研究报告:2024 年回顾及 2025 年展望(27 页)奥雅纳:2024 塑造超级高铁(Hyperloop)的未来:监管如何推动发展与创新研究报告(28 页)HSOAC:2025 美国新兴技术与风险评估报告:太空领域和关键基础设施(24 页)Dealroom:2025 欧洲经济与科技创新发展态势、挑战及策略研究报告(76 页)《无人机辅助的天空地一体化网络:学习算法技术综述》谷歌云(Google Cloud):2025 年 AI 商业趋势白皮书(49 页)《新兴技术与风险分析:太空领域与关键基础设施》最新报告150 页!《DeepSeek 大模型生态报告》军事人工智能行业研究报告:技术奇点驱动应用加速智能化重塑现代战争形态 - 250309(40 页)真格基金:2024 美国独角兽观察报告(56 页)璞跃(Plug and Play):2025 未来商业研究报告:六大趋势分析(67 页)国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)国际电工委员会(IEC):2025 智能水电技术与市场展望报告(90 页)RWS:2025 智驭 AI 冲击波:人机协作的未来研究报告(39 页)未来今日研究所 2025 年科技趋势报告第 18 版 1000 页模拟真实世界:多模态生成模型的统一综述中国信息协会低空经济分会:低空经济发展报告(2024 - 2025)(117 页)浙江大学:2025 语言解码双生花:人类经验与 AI 算法的镜像之旅(42 页)人形机器人行业:由 “外” 到 “内” 智能革命 - 250306(51 页)大成:2025 年全球人工智能趋势报告:关键法律问题(28 页)北京大学:2025 年 DeepSeek 原理和落地应用报告(57 页)欧盟委员会 人工智能与未来工作研究报告加州大学伯克利分校:面向科学发现的多模态基础模型:在化学、材料和生物学中的应用电子行业:从柔性传感到人形机器人触觉革命 - 250226(35 页)RT 轨道交通:2024 年中国城市轨道交通市场数据报告(188 页)FastMoss:2024 年度 TikTok 生态发展白皮书(122 页)Check Point:2025 年网络安全报告 - 主要威胁、新兴趋势和 CISO 建议(57 页)【AAAI2025 教程】评估大型语言模型:挑战与方法,199 页 ppt《21 世纪美国的主导地位:核聚变》最新报告沃尔特基金会(Volta Foundation):2024 年全球电池行业年度报告(518 页)斯坦福:2025 斯坦福新兴技术评论:十项关键技术及其政策影响分析报告(191 页)国际科学理事会:2025 为人工智能做好国家研究生态系统的准备 - 2025 年战略与进展报告(英文版)(118 页)光子盒:2025 全球量子计算产业发展展望报告(184 页)奥纬论坛:2025 塑造未来的城市研究报告:全球 1500 个城市的商业吸引力指数排名(124 页)Future Matters:2024 新兴技术与经济韧性:日本未来发展路径前瞻报告(17 页)《人类与人工智能协作的科学与艺术》284 页博士论文《论多智能体决策的复杂性:从博弈学习到部分监控》115 页《2025 年技术展望》56 页 slides大语言模型在多智能体自动驾驶系统中的应用:近期进展综述【牛津大学博士论文】不确定性量化与因果考量在非策略决策制定中的应用皮尤研究中心:2024 美国民众对气候变化及应对政策的态度调研报告:气候政策对美国经济影响的多元观点审视(28 页)空间计算行业深度:发展趋势、关键技术、行业应用及相关公司深度梳理 - 250224(33 页)Gartner:2025 网络安全中的 AI:明确战略方向研究报告(16 页)北京大学:2025 年 DeepSeek 系列报告 - 提示词工程和落地场景(86 页)北京大学:2025 年 DeepSeek 系列报告 - DeepSeek 与 AIGC 应用(99 页)CIC 工信安全:2024 全球人工智能立法的主要模式、各国实践及发展趋势研究报告(42 页)中科闻歌:2025 年人工智能技术发展与应用探索报告(61 页)AGI 智能时代:2025 年 Grok - 3 大模型:技术突破与未来展望报告(28 页)

上下滑动查看更多

相关问答

什么是科学素养?

科学素养是指个人具备的关于科学和科技知识、方法、思维方式以及科学伦理等方面的素质和能力。具有科学素养的人能够理性思考、客观分析,对科学问题具有较好...

什么是科学素养?

科学素养本身就难以定义,说说我的个人见解。当你对一个领域的知识了解越深刻,你就会越无知,越感觉到畏惧,世界上要探索的未知实物太多。学习了一类知识不代...

如何提高自我的科学素质?

非常直白的问题,同时也是非常难回答的问题。回到问题本身,如何提高自我的科学素质。首先得知道什么是科学素质。按照我国国务院发布的《全民科学素质行动计划...

科学素养的重要性_作业帮

[最佳回答]1、科学是现代社会不可或缺的一部分,现代生活的巨大进步和改善都是科学发展的结果,可以说科学与每个人都是息息相关的.比如自然科学、信息技术科学...

【思想道德修养与法律基础论文一、评分标准1、字数要求:不少...

[最佳回答]参考答案\x09把你的脸迎朝阳光,那就不会有暗影.

科学素养与科学素质的区别是什么?

总体来讲,科学素养强调的是知识层面,科学素质强调的是精神层面。科学素养,是国际上普遍将科学素养概括为三个组成部分,即对于科学知识达到基本的了解程度;...总...

怎么培养孩子的科学素养?

科学素养是一个对于孩子而言很重要的技能。能够提出这个问题,说明楼主本身是一个注重孩子的综合素质的家长。培养孩子的科学素养,应该从小做起。所谓科学,是指...

论述科学素养的7个特征?

科学素养的目标包括:培养学生的科学意识,科学思想和创新精神培养学生探索科学奥秘的情趣和志向,丰富和积累科学基础知识。培养学生观察、分析、归纳表述、...

科学文化素质建设包括哪些内容?

“科学文化素质”是一个比“科学素质”内涵更丰富的概念,而且可以包容相关的、包括中国优秀传统文化知识在内的人文社会科学的内容。而当下,我国对“科学文化...

科学素质和科学精神的事例?

2、在哥白尼40岁时,他提出了日心说,改变了人类对自然对自身的看法。当时罗马天主教廷认为他的日心说违反《圣经》,哥白尼仍坚信日心说,并认为日心说与其并无...

抱歉,评论功能暂时关闭!