深度访谈田渊栋：AI“顿悟”的关键，是对优雅的追求？

By 课代表立正

Summary

Topics Covered

研究员洞见胜过海量计算
理解机制超越黑盒缩放定律
顿悟是表征从记忆到泛化跃迁
损失函数仅为表征梯度代理
AI辅助加速进入心流状态

Full Transcript

反正现在我没有access了所以也算自由了想干什么干什么了我是在准备访谈的时候才发现你在Meta已经工作10年了对对那个时候2015年很小的公司 2012年上市的对你加入的时候Meta多少人加入的时候大概有1万多一点也不小了不是特别小

但对比现在可能几十万我们是沿着原来的访谈大纲去聊你的论文然后我们address一下这个new development的问题也行我们就可以聊一些论文我觉得这个还是比较好因为我其实并不想说太多裁员的事情我也觉得这个不太好推特上就发了一个帖子那么多人点赞小红书上也是刷到你的名字这一天刷了好多

其实我这边本意因为我这边team也有几个人被影响到了所以我当然希望他们有更好的机会因为我无所谓我最惨我在家里待着但是他们很多人身份会有一些问题如果不能及时找到下一家的话想办法帮忙找一找因为我毕竟认识的人比较多这个也是我的本意我反正不怕暴露自己被裁 I don't care

但是希望我的下属那些人能很快找到工作这也是我的本意我觉得是这样不要聊你们在公司的问题我觉得我已经说够多了我不想再说了我一般不太愿意说这些我觉得我在Twitter上唯一说的是因为有人跳出来说你们被裁是应该的因为东西没做出来那我要至少给我们的team澄清对吧因为我们team做了很多重要工作

你不能把锅扣到我们头上所以这个肯定是要讲清楚但是我现在就比较defensive 如果有人说这个是我们的锅那我会说回去除此之外我不会说太多公司内部的事情那你还有没有什么想澄清的你觉得没有澄清好的哈哈我觉得差不多了就这样我觉得我们其实还是做了很多的工作把很多之前的一些问题解决了比如说

包括long context的reinforcement learning 有没有训练得好还有包括前面的pretraining model 他们的design其实可能有些问题像有sparse attention的问题这个其实很多是我们团队解决的我先发现的问你这个design有问题然后去跟他们讲但是一开始很难他们不一定听你们我当时去的时候相当于一个research team过来的对方是做大模型的

我这边research team过来的话他们不一定会听他们可能会觉得这个事情没问题肯定是对的我们这边要用各种实验去证明我们之前的那些发现或者说那些insights是对的后来他们是被说服了所以他们才会发现这里有问题这个其实都是我们团队的贡献还包括怎么样去让long context的reinforcement learning更加稳定包括有很多blew up的问题怎么样去解决

这些东西都是我们这边做的但这些东西也就属于幕后英雄毕竟最终我们这个模型也没有真正official release 至少我们有一些贡献在里面这个我得说说出来至少为后面的人添砖加瓦做一个比较好的base 就是这样子我倒有两个问题了第一你们作为一个research团队人家不信你可能是觉得

你之前没有这个训练大模型的经验或者怎样但是你们能很快发现问题你觉得为什么可以做到第二个就是对面那个大模型团队是个什么样的团队他们自己本身大模型训练经历丰富吗他们训练是经验丰富的那他们有一些之前的实验有bug 嗯这个bug导致他们做出错的判断但是我们这边虽然说没有训练模型但你毕竟是做过大模型的有些文章

对吧包括我以前做过sparse attention 稀疏的注意力那我当然对注意力结构我知道什么意思怎么回事那我当然一看这个设计我知道有问题这个我相信很多人都能看出来这个并不是说我能看出来你肯定能看出来但我并不知道当时这个决定怎么做但是我愿意说但是没办法因为其实也很难说服他们就是

你要花很多时间和精力去跟他们说服这个是有问题后来他们自己团队发现了也是有这个问题慢慢就会改变这个想法虽然说研究员可能我们当时做研究的时候并没有直接去接触超大模型训练但是研究的这些直觉或者说这些经验其实很有用对吧它能够很快能够找到问题能够发现什么地方是有问题是有出错的

怎么样去解决我觉得这个是很重要的这个是作为一个研究员的宝贵财富说实在的你如果是一个完全没有任何insights的人 OK 我天天就跑实验然后调参数这个工作其实你说你能做别人也能做对吧那研究员的优势是说我能不能根据一些非常稀疏的数据点能够得到非常重要的结论这结论能够推广到难的问题上

这个是研究员能力你说的稀疏的数据点是不同论文和不同实验的结果对就比如说我如果是个新来的菜鸟那么对我来说OK 我的任务是调参数跑程序比如我跑1万个点我就得到1万个点的参数的值然后我就说我告诉大家这1万个点是我跑的跑完之后跟大家说OK 跑完了这个是我的结论但是跑完之后这1万点就在那边

是死的你也没有什么insights 没有什么概念说这1万点其实代表了后面什么意思有什么样的结构那这个其实只有那些有经验的人才能看到有经验的人可能看到20个点我就知道有什么问题甚至说看10个点看到这个training curve刚刚训练了一半哦我知道不行了不要跑下去可能你这里有问题这个其实是为什么 AI的研究还是薪资比较高我觉得很多时候是这样你的一个insight可以抵

比如说100块卡或者说抵1000块卡（还是）多少张卡我不需要那么多卡但是我还是有insights 可以得到一些比较好的结论这个是重要的你刚才用了两个词一个是经验一个是insights 然后我想double click一下这个到底是个什么东西有的人会觉得这是一个taste 有的人会觉得是个intuition 我们有好多词去形容这个东西那你觉得这个东西到底是什么刚刚已经有四个词了对吧

四个词说的好像都是一件事那你能不能给大家讲一讲从你的经验来说你用多长时间能判断一个人有这个还是没有这个你觉得它有的话它除了像你刚刚说的从很小的数据点就能得出来一个更正确的结论还有什么展现以及怎么得到这个东西我觉得是这样 insights 是一个很难描述的概念

特别是一个有经验的人比如说在某方面他是个老师傅那么他怎么做他要根据很少的数据然后判断这个现象背后的真正原因是什么这个是重要的比如说一个修车师傅他可能根据蛛丝马迹会知道你车哪里坏了明白你还没有反应过来说这个事情就坏了或者说一个交易员我做股票交易的我说我根据这两个迹象或者看看财报嗯所以这种东西是很重要

他讲不清楚到底怎么回事但他就有种感觉说这个不行那个行有一个mental model 这个mental model大概率是对的这个其实很重要有这些东西之后其实很快能够发现问题在哪然后有这问题我们怎么样去解决这个问题然后往这个方向去走这个可能比GPU还要重要当然GPU也很重要有GPU之后你会做更多实验获得更多的insights 这两个是相辅相成的

应该这么说你能很快判断另外一个人有没有一个好的mental model吗这个其实是有一些办法就是说你是要跟别人聊大概聊一下感觉一下他平时对这问题怎么想的我觉得这个其实挺重要的其实我可以举个例子比如说学校里面有这种 PhD exam PhD qualifier 一个学生坐在自己老师面前然后老师问他请问你对这个问题有什么了解

比如说我们讨论一些学术问题对这个老师来说他想办法问到底比如说你对这个偏微分方程有什么想法你有什么一二三四五这些经验然后就是抓住一个点然后使劲问你就知道他到底懂不懂了他到底知道这里面之间什么关系能用最简单的语言讲清楚对然后就能够知道最重要的两个东西的关联是什么这样的话就知道他真是懂的

或者说他真的是知道最关键的关联在哪里可以用这关联去做更多的推广这个是重要的像比如做研究的话比较忌讳的是说我就只懂书面知识一二三四五背出来了但是他们有什么关系什么时候他们两个成立他们俩不能成立什么时候imply B 什么时候imply C 这个并不知道的话其实是比较难搞的我觉得这个是一个问题其实这个很重要说实在的

是我觉得现在的模型做不到的地方现在模型可能没有办法用很少的数据真的去预测将来的结果那我们就直接到这个话题吧你的论文是Grokking 但是它是一个底层的这么一个在一个时间点它有了一个学习的这样的东西顿悟的感觉是吧嗯我在看你跟智源的专访里边你也提到一个点就是鸽子问题你当时和Denny Zhou在

Twitter上关于chain of thought的一些讨论就是说确实理论上也许你的这个逻辑能表述的话 chain of thought似乎可以解但是模型会用无限的数据去试图解决这个问题但是人似乎一下子就能get到这个问题我觉得和你刚说的那个东西有一些联系但你如果来定义这个能力的话你会把它定义成reasoning吗

还是你把它定义成一个什么顿悟呢它是在reasoning 或者说其他一些task下面下面是什么意思是更底层的意思还是更底层的意思就是说它是一个表征学习比如representation learning的一些行为随着这个训练的拓展你会发现表征会改变就相当于看金庸小说对吧张无忌一开始被他义父谢逊逼说你把东西全背出来现在全背出来

背出来之后你不懂没关系不懂你可以脑子里存着过了几年之后突然之间有点会了乾坤大挪移突然懂了这个是很有意思的一个机制比如说你当时教小孩子可能也是这样特别是有些小孩说你先把它背出来读书百遍其义自现就是你现在先读并不知道什么意思但是过一段时间之后或者说你跟其他的一些事情能够联系在一起了之后你就会有一个突然之间你会觉得

这个意思是跟我这个现实世界是有关系的或者说这两个意思之间是有关联的我们知道更深的联系这种其实是应该说是顿悟的一部分这个机制其实是在思维链之下的不管你用思维链做推理训练也好不管你用那个直觉来判断那个答案也好或者不管你用什么方式来判断答案也好对吧这些东西它的下面有一个共同的机制

就是说我到底用什么样的表示用什么样的对这个世界的理解导致了这个思维链比如说那个小学生做一道题他可能说我这道题怎么做我用穷举法 1+1等于多少 1+2等于多少 1+3等于多少那么有一些穷举的一个路径可以把这个事情做了比如说你要证明一个简单的一道习题那么小学生会说我穷举一些答案看答案差不多了那可能就对了但是你这种方式

其实可能很多问题解决不了等到比如说初中生或者高中生他们的这个思维其实有一种飞跃什么叫飞跃呢就是说我们告诉他我们可以用数学归纳法来解决这个问题数学归纳法这个思维这个层次是高于穷举法的如果你的数学归纳法能够证明这个事情是对的那么它就对所有的自然数都成立那这样的话我的穷举法穷举无穷长的那个思维链它其实都比不过数学归纳法的

很短的证明所以这个是一个飞跃这样的话你对这个问题的理解两种方式的思维链它的后面的理解是不一样的所以这个理解或者说这个表征其实就是神经网络学习的一个重要的地方我不知道我讲清楚了没有很清楚然后我想跟你对齐一个认知然后给你看一个就是当时我引用的我们不是教课吗然后我们教课的时候

我自己发现当时是Ilya去MIT 几年前了 2016年的时候他去讲的总之他当时讲了一个东西我觉得他说的很深刻就说为什么这个back propagation works at all 然后就是这个 theoretically optimal hypothesis class 等于short programs 对对就听你刚刚那个意思

也是就是本来我要去走好多条点走到这然后突然找到了一个更好的联系然后我就有一个更好的压缩然后它就更generalizable 对这么说就是说因为压缩可能也可以说是更通俗的解释对吧但是什么时候这事情能压缩什么事情不能压缩其实现在不是很清楚这是为什么你要去研究Grokking 这个机制它给你提供了一个动力学过程

让你知道它怎么从一个不压缩的状态变成压缩的状态你可以这么想我再说一下就是我接下来问你一个问题的铺垫就是我会发现这个和人类理解知识似乎也很接近人类也是information connect dot 但是这个图是在neural network之前出现了对而且很多教育专家他会发现就我记得在群里面赵智沉有讲说

reasoning是一个人类固执的幻觉对然后这个是个教育专家说 the most important single factor is prior knowledge 对你只有prior knowledge就行了你只教prior knowledge 没有什么聪明不聪明这种说法反正你只要把这些知识全都connect起来了似乎就可以这就是我接下来问题的这个铺垫那接下来的问题就是我们不知道我们的这些knowledge

connections是怎么形成的对我们没有办法去讲清楚你说在大规模预训练的过程中似乎大家也不是很清楚对所以这是为什么搞清楚其实可能孕育着就是下一个模型的一个契机对吧如果你搞清楚了之后你就知道什么地方你要修改这样的话你模型变得更强所以这是也是一个动力因为我们现在你看可以说我把它搞清楚我把它当黑盒子就相当于一个很大的开关有很多的开关

对吧像以前那种电脑那个大型机非常多的按钮开关我们就培养操作员坐在上面然后把按钮开关打开各种组合然后看效果怎么样那这是一种方案那另外一种方案就是说我们要把这个大的机器打开然后理解里面的机制是什么有这个机制的理解之后那我以后再去拨这开关的时候就非常有感觉我就非常知道哪些开关要开哪些要关能把这个做出来我觉得这肯定是一个更好的做法

当然现在可能主流的思维其实并不是这么说主流思维是觉得我们就叫scaling law 我不需要搞清楚你们在干什么我就机器很多很多很多放很多聪明厉害的人进去然后让他们去拨那些开关这些开关的某种组合找到了那我们就能够把这个模型做得很强两种不同的思维但哪种是对的呢现在也不好说对吧因为现在确实scaling law有很大的应用确实那个效果也非常好

至少目前为止看起来我把它当黑盒子然后让很多人去拨开关得到一个更好的解是一个比较好的方案另外一方面就是你把那个模型打开那个时间花的代价其实更大因为其实并没有多少人真的知道这模型里面在干什么但是我觉得长远来说可能后者会有更高的天花板我同意你的判断但这里边有这么一个点我觉得

为什么黑盒子现在它是占主流因为打开了以后人类似乎也没有办法真的去判断什么东西是什么就是这里边有几种学习范式或者怎样对对现在是这样所以能不能找到一个比较好的能够理解整个结构的一个大的框架是重要的所以是这样

这是为什么我做paper的原因比如最近有一篇paper 我们做Grokking 对吧那么这篇paper 为什么要做这个paper 所以我觉得通过这个方式得到一个对这个问题的一个大的理解框架可能对以后的模型的改进有很大帮助这个是我的想法本来已经有点复杂了但是我觉得我再多引入一个问题似乎我们在学习AI 怎么学习的过程中我们会从人类身上人类的学习过程取得灵感

包括最近很火的Sutton出来说 RL是人类学习的方式大语言模型这种方式不是学习方式它也不能学习因为它没有objective 那另外一派呢 Hinton他说经验并不是一个只存在人脑中的你通过语言可以得到经验这个debate 最后就落到人到底是怎么学习的然后什么是学习怎么样子才能产生学习或者产生新的知识或者connect the dots

就想请你再就这个问题来发表一下你的猜想甚至都可以我觉得通过经验学习这个是对的但说这个经验里面什么样的经验是更有价值的我觉得这个是一个比较大的问题对吧比如说你要说非常直观的经验就比如说我有一派是这么说我没有embodiment 我是没有办法去学到真正的感觉这个是行万里路对对你要行万里路

或者说你要真正感到痛感到伤心喜怒哀乐你才能真正成为人就是这样的一种说法或者说比如说我只能通过看世界然后才能知道空间结构或者说只能通过摸才能看空间结构对吧那么还有一种说法就是说我有一些抽象的概念我还是能够学会这样一些东西我觉得这两个东西其实应该说不是说是互斥的

因为是这样的其实最终我的目的是要学到一个representation 学到一个表征学习对吧因为如果你学到一个representation的话有个好的表征那么对的问题你能够解决表征怎么学出来的这个完全取决于你的那个输入有多丰富结构是什么样子的不管你是直观的学习也好还是抽象的学习也好只要能学到这个表征就能够

最终得到一个比较好的泛化的效果我觉得这两个拼起来应该说是比较好的那么两边谁能写出表征来这完全是应该说是有个定量的方式来预测的而不是说是非此即彼有可能是说两边都一半都可以学或者说一边1/3边2/3也可以学都行所以并不是说一定是黑或者白

或者左或者右很多时候是混在一起的然后最终得到个表征这表征就是能够进行预测或者说能够操纵你的行动能够泛化到一个新的没有见过的情况那我觉得顺着这个问的话就是你刚刚所说的后者的工作就是不是black box 然后不是所谓的这种scaling law 而是真的去打开它

然后去梳理它然后怎么样呢用不同的方式去学习对对那它的意义是什么就是几种就是要么它学得更有效率然而似乎现在我们数据已经到了一个瓶颈效率这件事情不知道它是不是意义那么大然后可能是在同样的知识里边能学到新的东西或它能增加新的数据就是新的信息 information set

嗯嗯它的意义是什么呢就是那样做的意义我觉得首先第一个就是说数据到瓶颈的话其实恰恰就需要这个了因为如果数据到瓶颈的话那你意味着 scaling law不一定有效了比如说你就这么点数据比如说你就只有这个 hundred trillion tokens （几百万亿tokens）这样一个scale 这个token数目对一些大众的东西已经绝对够了对吧但是对一些小众的领域就是它可能每个小众里它占的比例就很少

所以这样的话其实你如果数据不够再加上你的训练算法比较费数据的话不管怎么样你学会的永远是一个memorization 或者说是记忆的结构而不是一个泛化的结构那这个是一个问题对吧那么这种情况下你怎么样去用scaling law做你比如说你得去找办法去做data augmentation 也许这是一个办法对吧但是如果你对这个问题有理解对这个模型有更好的理解的话也许不需要data augmentation

也许你需要改变这个训练本身的那个算法或者说训练的那个架构那么有这个架构之后也许这个模型就会做得更好你觉得我们现在大语言模型产生出来的inference 生成出来的这些新的token 它是记忆还是泛化我觉得这个是我觉得是混在一起的 task比较丰富的你见了很多很多这样情况可能是泛化给它的记忆材料越多它越有泛化的可能

是这样吗你可以这么说就是给它的材料越多因为它看到各种组合了之后它在组合里面可以得到一个比较好的表征这个表征它能够有预测能力或者说这个表征对没见过的那个组合它有一些比较好的结构可以算出来这个其实就是泛化我觉得说实在所谓我们真的懂这东西我真的理解这东西往往意识的一个是它的泛化能力很强对新的情况下

这个表征能够得到正确答案然后第二个就是说它能够细化到非常简单的这个逻辑那么这个逻辑可以apply to everything或者apply to lots of cases 这两个东西综合起来就是让你这个学出来的知识能够apply到很多其他的地方那么这个叫泛化应该说我们对泛化下个定义的话这样一个定义那么如果大语言模型

对某个领域看了很多很多数据它有可能学到更好的表征然后这边就可以泛化那这个是一个然后另外一个就是说如果它看到的数据很少那这样的话有可能就说这个模型本身它没有办法学到很好的那个表征 OK 那它就只能把它背出来它得到的表征就是更偏于背诵的这样的结构就是它能够至少对付好训练的那个要求就说我希望这个训练集上的那个错误率

还是比较小的但是它一旦超越了那个训练集的范围之后你就会发现这个错误率就会提高了那么这个其实大家就认为这个是过度拟合了对吧或者说是背诵了所以大概就是这样子其实我觉得很多时候你并不能说神经网络是记忆还是泛化应该说是完全取决于这个数据的分布如果数据多那么这个神经网络是泛化多如果数据少那么这个神经网络是记忆多这个是我的观点

我觉得这里边最fascinating的一点就是它从记忆到泛化的那一步到底是怎么发生的帮我们总结一下至少从我最近的一篇paper角度上来看告诉你就是它有很清楚的一个picture 告诉你就是这是怎么发生的内在机制是怎么发生就是我们现在感觉上是我从记忆突然间跳到了泛化好像这个变化非常神秘但是这篇文章其实告诉你说其实并不神秘

它有非常清楚的一个数学图景就是比如说我们要做优化问题我们可以构造一个比较复杂的一个非凸的一个优化的结构比如说很多山的山峰然后记忆对应其中一个山峰那个泛化对应其中另外一个山峰这两个山峰其实对应着不同的表征那么这个山峰的这个结构其实完全是取决于数据的分布的如果你数据不够你可能就只有记忆的山峰如果你数据很多的话

某些泛化能力强的山峰就会慢慢变得越来越高然后记忆的山峰就会变得越来越低这样的话你再让神经网络去找到那个好的表征的时候是相当于是个优化问题优化这个神经网络这个参数使得它能够收敛到某个局部的最大点那么如果你的记忆的山峰缩下去泛化的山峰提上来然后泛化的山峰那么就有很多的那个神经网络

它的参数会收敛到那个泛化的山峰那么这个模型就泛化了那么从记忆到泛化中间为什么会顿悟呢其实很简单就说你两个山峰之间的变化此消彼长对吧然后在某个情况下我比你高一点点了然后突然之间所有人都往那边走那就是因为它可以泛化把它给泛化因为它能泛化所以它可以只要多一点点的话它就全都过去了对对因为你认为神经网络

是一个一直在优化的过程它会看见如果这边高那边低点那么所有人都涌到那个高的山峰上去那就突然之间你就懂什么意思所以我觉得是这样的一个结构也就是这样从整个数学框架上能告诉你这件事情是这么发生的而不是说是还是非常神秘的这样的一个东西那我是不是可以理解为这个泛化的点一直都在数据里边只不过我们之前没有找到它

没有搜索到它或者说搜索到了但是没有pay enough attention（足够注意）然后现在因为它随着越来越多的数据点凸显了它的价值然后我们才pay enough attention 对对你可以问题是它要存在对它存在然后它有你要足够的数据让它显得与众不同可以这么想就是如果数据不够的话你可以有很多泛化的那个思想但是就说这些泛化的思想

它的说服力不足以说服记忆这边就是因为还不如把它记住规律可能没有那么显然对吧那这又回到了另外一个问题就是怎么样子做evaluation 怎么样子做reward 现在大语言模型还是你看你next token predict（预测）准不准作为reward（奖励）吗还是有其他的方式可以让这个有泛化能力的显得更牛一些应该是这样

就是现在你要看大语言模型一种是pre-training预训练和post-training后训练对吗这两个都有所以你很难讲你说预训练我们现在还是用大量predict next token 然后后训练其实我们可以说有很多办法可以做训练那么预训练这个结构或者说这个损失函数其实没有变因为现在相对来说这个还是比较好的损失函数当然现在有一些新的一些方案

比如说reinforcement training（强化训练）就是我在训练时候加一段思维链然后希望这个思维链会导致最后的那个预测是比较准的这种类型的一些工作这个就是可能对原来预训练的方式做了一些改变大概是这样那后训练它的花样就很多了对吧花样就比如说你可以改reinforcement learning的一些函数比如说改比如说它的值函数改它的evaluation 对吧 value function（值函数）对吧 reward 对吧改rubric（评价细则）这些东西都可以改

你这些改了之后可能就是你其实是希望这个模型往不同的方向走对吧然后你往不同的方向走了之后那么有些方向可能就强化模型的某个能力某些方向强化模型另外一种能力那这样的话你这个模型最后就是百花齐放了当然就是说很多时候你要优化它到某个能力的时候你其实还是希望能够优化得比较一个是避免 reward hacking 有些时候就是

模型还是会最大化你的某个值函数但是这个最大化的路径是偏的不想让它这么做但是它就这么做这么做有shortcut 比如说你答案就只有ABCD四个然后拿去瞎猜一个25% 我不希望它瞎猜怎么办那我就希望我的思维链一个是希望它的每一步经得起考验每一步逻辑是正确的你可能需要一个另外的模型去做这个事情这是比较重要的一个就是怎么样去做这个事情那么这样的话

你中间肯定要引入各种rubric 引入各种东西去把这个模型给调出来所以其实花样还是挺多的而且有很多地方是可以有一些人类的那个思维和概念能够放进去听到现在用比方去理解它的话就是大语言模型是个非常非常勤奋算力非常非常高就是一天到晚学习的人读了唐诗三百首结果发现它又找到了唐诗3万首读了300万首唐诗然后它会作诗了

是因为它穷尽了这里面所有规律找到了行之有效的方法且它有一个好的方式去可以帮助它evaluate 它自己的诗作得好不好它找到了这里边的规律但前提是这个规律要存在在这里边对对然后你刚刚所说的就是希望用另外一种方式去学习是说我们不光要让它去背300万首唐诗我们能不能

就是像发现数学公式那种方式去发现一个规律阿基米德发现浮力定律它其实是干了两件事肯定当时在想很多很多的方案很多很多的可能性然后它脑子里边找到了这么一个点但是第二件事是它马上意识到这个是对的这两者在机器都挺难做到的它很难马上意识到这个东西是对的我觉得意识到这东西对的是有可能比如说你发现一个新的假设

这假设能够解释更多现象而且它假设更简单那你会马上意识到这个是对的就比如说地心说跟日心说其实说实在的那个地心说也是对的地心听说你也可以拿来预测只是在地球上来看其他行星的运行轨迹非常复杂本轮均轮这种运行轨迹就是轮子套轮子一边这么走还要换个花样再转再转就轮子里面套轮子然后你通过这个方式你可以预测一个行星的行为

这两个其实都是对的日心说的时候你会发现突然之间所有的轨道都非常漂亮就是一个椭圆非常非常简单这个时候你会马上意识到那个理论或者说那种解释是更加完美的或者说更加接近真实或者更加接近那个更美的这样的感觉原来是这样子一个逻辑你觉得elegance这个东西在模型现在训练的reward function里吗

我觉得是这样它不是reward function（奖励函数）但是它在训练的时候应该有implicit bias（隐性偏见）往这方向走就比如说那刚才你说 Ilya说过这个我希望它压缩我希望这个模型会自动的找到一个比较优美的或者比较少的压缩比最高的那个解释这个我是同意的这个确实是会发生的但是这个不是是一个loss function

是说它内建在神经网络的训练过程里面这训练过程会让这个模型自然地发现更加好的或者说更加优美的解释那么这样的话神经网络它才有这个能力去学会更好的表征然后才有泛化能力在loss function之上还有一层更隐含的reward 是的是可以这么说对对这个很重要因为说实在所有的loss function都是surrogate

都是代理就比如说predicting next token 或者是whatever 或者什么contrastive loss non-contrastive loss 或者说player loss 这些东西都是代理就是它的目的是产生一个梯度流这个梯度流能够让这个表征往正确的方向走这个是最重要的一个逻辑至于这个目标函数是什么其实并不重要重要的是这个哦我直到今天之前我一直觉得

loss function是整个学习的目标现在我才知道了它是surrogate（代理）这个是共识吗我为什么到今天才知道这件事因为它听起来很intuitive 然后很重要我自己毕竟还是做过很多表征学习的工作的我知道很多表征学习的那个目标函数你做过些拆解之后你会发现它们其实就是反向传播梯度的不同形式你loss function换了你的反向传播梯度的结构是不一样的那么这个结构

其实最终能够影响你的表征的学习但是你这个loss function其实可以换你甚至换成一些那个奇怪的东西你从来没见过但是你最后得到那个梯度是差不多的那你求出的表征也差不多你对梯度这个词的使用也让我觉得非常的intuitive 我心中就是一个一个等高线这个等高线最后画出来的是我们的一个知识很本质的东西可能就是刻画我们世界规律的这么一个

等高线这个逻辑是经常用的但是等高线这样的一个思路其实它忽略了这个神经网络本身的结构因为它把整个landscape 把它做成一个高维空间中的一个非常复杂的一个山峰但是这个山峰其实你要知道山峰其实对应着神经网络的结构所以这两个是有关系的应该说把这个梯度在山峰上的这个指引去映射到这个神经网络的具体的哪个梯度

对于哪个神经元的或者每一组神经元的这样一个过程那么这个时候你能看见就是它的表征是怎么学出来的这个是会比较有趣但这个可能比较细节大概是这样的一个逻辑但这个是一家之言我们来听的就是一家之言有教科书的话我们就去学教科书了当然每个人都会有自己的想法这边也是做很多research 有这样的一个大概的感觉在上面有很多文章做一些这样的工作

分析这个梯度的结构我相信就是再往上走也许那个理解是能够改变这个神经网络的学习的方案这是我们的最终目的当然这个方向比较远这是long-term的当然是希望有很多那short-term的东西可以跟它辅佐在一起一起做要回顾一下你的这个科研史看你的工作其实我能感觉到它是有一个很强的主线自己的网站上介绍的时候我就会发现

你前面一个工作lead到下一个工作然后再lead到下一个工作就是每一次都能在前面非常重要的结果上再往前走你到底是怎么决定你的科研方向你怎么样子把兴趣商业和自己的追求结合起来的肯定是要结合的不然的话就是很有可能就很惨大家都有家庭大家都希望能够有一些比较高的收入小孩也有个比较好的环境社会地位也比较高

大家都希望这都要成年人说大家都要不是说小孩子要选一个所以最终你肯定是要找到一个结合点因为我从博士开始已经是很多是双线作战了我可能花9个月时间去想一些不着边际的东西然后3个月说不行了我今天要发paper 不然的话老板不爽对吧那我可能会跟老板说你有什么题目我来帮你做我花3个月我就把这个事情做了几篇paper就要对老板有交代

通过这方式至少让我我是觉得让我会有工作我能毕业对吧然后老板也开心这个是重要的工作之后也是一样的我们当然希望做一些方向这方向是迎合时代潮流的不可能说完全脱离时代潮流比如大家都在做大语言模型你偏偏不做比如我就要做SVM 肯定在公司里面是没有办法活下去的会想一想就是说我这边的一些比较偏理论的研究对于这个问题有更深理解

比如之前我们有一些关于 attention sparsity 注意力机制如何变得稀疏的这样一些研究那么这研究本身是比较理论的但是你就可以拿来做一些比较实用的工作比如说之前的attention sink 我们其实没有太多理论但是我们可以通过观察这个神经网络的稀疏性我们可能得到新的算法用这新的算法把上下文扩展到400万以上这样的话这个东西有用了突然之间

你可以拿来做大语言模型的 coding解码的这样的一个应用这应用其实本身也可以放在很多手机上这样的联系应该说还是比较紧密的应该容易想到你的attention有稀疏性的话那我就把大部分的attention的score砍掉那不就是加速了吗其实省内存了对吧那你有各种办法可以提高这个效率这两个关系是很大的你只要稍微想一想就有一个新的算法

你有新的算法之后你就有一个新的思路那么这个新的思路你就可以拿来做很多最后一个问题就是until recently 你的科研你感觉是按照自己的想法走呢还是要做很多application的工作及接下来可能会吸引你做的事情是什么是继续你对后一种研究范式继续探索呢还是我觉得研究范式探索是很重要的当然了

我们现在也要与时俱进对吧就是了我不可能我关起门来说我就用以前的方式来做这研究也许我们以后要找到一个AI scientist 或者说我自己写一套比如说agent框架然后帮我一起做研究这也是可以的就是说我们这篇那个Grokking的paper 就是我和GPT-5进行对话做出来的其实我觉得很有点像这种self-play 我给它一些问题然后我这边有些想法发给那个GPT-5

让它去思考给一些比如formulation 就一开始你这么做它给你的答案都是非常大路的非常没什么意思但是你通过思考之后关键的一个insight给它它可能会有不一样的输出这不一样输出可以往下面深挖一层了但是你还是要找到它的错误找到它的一些矛盾的地方它做不出来的地方然后继续深入然后一直深入到这个问题的那个理解

或者说这个问题的一个数学的这样描述已经达到了我想要的这个目的这部分就成功了但是我还有一个点就是那是个solo author paper 你没有把GPT-5放到co-author里边这篇文章是个conference投稿 conference投稿说大语言模型不能作为作者所以你没有放对吧那我后面写了一段这段话是说我们广泛地使用大语言模型我给大语言模型各种想法让它去formulate 让它证明一个东西

然后发现问题怎么解决对吧它基本上所有东西都是错的但是它有一些比较有意思的insights 很多东西可以细化然后把你的idea从一个想法变成一个具体的过程这个它很擅长就相当于它是一个非常勤劳的 junior的一个PhD 它非常勤劳我给它一个想法它马上把它写成一段落让我能够很快地进入状态以前你要进入状态我现在有一个小时的时间

一开始半小时我要进入状态通过写写公式看看文章思考一下我进入状态了叫心流然后才能得到一些结果这个时间其实比较漫长有了这个GPT-5之后进入心流时间很短了你跟它有一个小想法然后它给你写一大段三分钟之内给你写一大段东西你看完这段东西之后你马上会进入这个状态就说我知道我要怎么去想问题什么地方它做得不好或者说有什么insight可以进来

这个是很大的一个效率的改进以前你需要几个月的时间做一篇文章你现在可能几个礼拜甚至是更短的时间这个是非常大的效率的提升如果用得好的话是很厉害的当然现在还是个非常初级的一个self-play 对吧也许说不定以后我们可以做一个更加自动化版的就很有意思嗯那肯定这方面有很多东西可以做自己也有一些经验了就是我跟当时是o1-pro

探讨量子力学的那个many-world theory 我特别感兴趣然后我一直觉得它最make sense 但是我们没有对应的哲学反而那种所谓玄学的哲学和这个many-worlds theory的哲学是吻合的就是我如果非要强行地说的话我就说这个世界的本质就是一个非确定的many worlds

然后我们之所以现在share一个reality 这个是我们的最大概率当然这个概率可能极大就是99.99999 所以说我们就会觉得这个桌子是确定无疑的存在但是其实它可能并不是真的存在嗯对大概是这种感觉对这个是对的从科学上也是对的你可以认为它是一堆波函数的组合对吧然后存在一种可能是这个桌子突然之间跑到另一堵墙另外一边去了

这概率非常小但是不是0 这个是存在的只是因为这个桌子是宏观物体它的那个量子态不是那种相干量子态所以就出现这种概率非常非常小就是这样子一个东西但是我就发现这个idea 我没有办法和它写成一个文章因为我自己的水平不行就是说现在AI能辅助你写出来像你这个顿悟的这样的文章主要是自己最后还是人还是比较重要了

有很多重要的insight还是要人给然后AI现在有很多奇怪问题比如说它就会卡在一个地方动不了它会跟你说很多车轱辘话然后它就说不到本质上这个很有意思感觉上就是你去面试一个新来的PhD 然后说一大堆话它像背诵概念但它又绕不到它就找不到那句最重要的本质的话能够说出来这个其实是一个比较大的问题

但是这个就需要人去总结然后告诉它这个是我们认为的最本质的东西然后让它继续往下走这个是比较重要的就是说这是一个fresh PhD fresh PhD意味着它可能是可以被训练的我想到是duolingo的那个founder 他是一个计算机教授我忘了叫什么他讲了一个故事就是他去读博士的第一年他老师是图灵奖的获得者对然后几个月

他去了以后他老师就只跟他干一件事就是你这个东西给我讲讲我没听懂下次再来他第二个月的时候就崩溃了就这个老师肯定不行怎么回事结果后来才发现就是他自己没有讲清楚没讲清楚说明你这个理解不深对吧如果理解深的话讲清楚了别人会觉得你确实理解深了你确实懂了然后你可以做你可以做研究所以这个是一个对

他叫那个Luis von Ahn 对我想起来对对对应该是说我当时在CMU读博的时候他就在那了对他有这么一个故事所以说不知道模型是不是也可以这么搞定我觉得有希望希望可以是的是的对当然了大模型可能会强行地记住怎么样讲能讲清楚但它自己不懂也是有可能而且就是说你怎么样才能获得训练数据能够让大模型找到最优的讲清楚的这样一个

因为讲清楚这个事情是一个非常主观的东西很难用这个模型去model它在要求大语言模型之前我们先要求自己我们先要求自己把一个东西给讲清楚已经是一个很高的要求了这个很难就是说这部分其实可能就需要人有美感就是人觉得它的那个讲解是非常有美感的或者说非常简单扼要这个才可以那么这个怎么样去设计一个loss function 是一个question 通过这个对话

我也更深层次地理解了这件事多重要它的context是什么和它其实对人也好或者对模型来说其实都有很多共通的地方我觉得通过讲这个论文我们也讲了很多其他的我觉得挺重要的知识对对对好的那祝你接下来一切顺利谢谢好先这样拜拜

Loading...

Loading video analysis...