通义千问技术负责人离职，阿里HR捅了多大篓子？｜亚马逊AGI查晟：大模型训练的一线实践

By 课代表立正

Summary

## Key takeaways - **大模型训练全环节必须对**: 要训练好像DeepSeek那样的模型，每一个环节基本上都要搞对，包括数据、实验方法论、scaling laws等，全部搞对了才有可能做出好模型。 [02:48], [13:35] - **Scaling Laws实验设计易踩坑**: 利用scaling laws从小规模实验预测大规模效果可节省成本，但大模型有emergent properties，小规模需看loss外其他变量趋势，避免scale up时突然不scale的坑。 [03:34], [05:30] - **追求50%成功率最大信息增益**: 成功率太高或太低已有强prior，确认已有经验；正好一半一半时，对方向了解少，不管成败都获有用信息，试错迭代快，能cover更大空间。 [07:45], [08:32] - **大厂人才密度低易失败**: 大厂不同director团队有小culture、scope politics，人才密度不够难全做对；小团队快速迭代，发现错马上做对，Google靠technical culture和人才密度快速迭代。 [14:21], [15:07] - **Benchmark不可靠需秘密评估**: Public benchmark易leakage，数据厂商可能paraphrase数据骗分；公司需有自己的secret evaluation benchmark，永远不能disclose，避免决策错误。 [23:14], [00:55] - **合成数据无信息增量**: 用language model清洗或合成数据是endogenous信息，无exogenous新信息，本质改变数据权重，但找比生成简单，有asymmetry可略提升质量。 [17:25], [19:21]

Topics Covered

Scaling Laws易踩坑需多变量监控
追求50%成功率最大化信息增益
全环节做对小团队胜大厂
Benchmark污染需秘密评估
模型自出题五年内实现

Full Transcript

我是查晟现在是在Amazon AGI 我的title是senior manager 我之前是在Alex Smola的组做深度学习的框架做了一段时间框架之后参与了基本上 Amazon的第一批的大模型的开发从那个时候开始就基本上一直在做大模型始终是偏pre-training这边的你跟李沐共事过

对我原来就是在沐哥组下面你当时是第一线参与的包括亚马逊训练第一代大模型及失败的经历并且你在这里边秉持着在我看起来正确的一个技术路线现在呢你也是在深度参与亚马逊现有的这些它的Frontier的模型训练邀请你来讲一下技术吧训练模型到底是怎么回事儿

为什么它这么难看起来DeepSeek 大家说你看中国一个公司用了1%的成本也都可以训练出来一个很好的东西然后中国有很多包括KIMI MiniMax都有很多好的模型但亚马逊 Microsoft Meta 都很难去搞出来自己的模型虽然有海量的资源和人才那到底是咋回事儿起码模型训练到底是个怎么回事和为什么看起来又难又不难的样子嗯好的现在大模型的训练

基本上用next-token prediction 预测下一个字符的这个方式去给模型一个压缩很多信息的机会这些压缩进去的信息会通过一些额外的步骤中间训练和后训练去把信息变得对于那些task更有用我要做好这些事情其实因为这里天然的就有很多环节嘛

要训练好一个像DeepSeek那样的模型每一个环节基本上都是要搞对基本上搞对了之后就可以有正向的一个迭代的循环那这里有哪些方面要搞对呢一个是实验的方法论上其实它是一个经验科学嘛这个东西大家要怎么做好其实machine learning基本的那些东西都得做好做对包括我们训练的数据

不应该有leak一些比如说benchmark上的信息对吧这个我们不说什么厂家了可能也已经有过这样的情况包括预训练过程当中因为每个模型它的训练成本都会很大现在模型规模都很大嘛所以研究迭代的过程本身就是是有成本的一个挑战的大家基本上现在做法

都是利用好scaling laws 通过scaling laws 去看我在小的规模上面去做的实验它在大规模上会有什么样的能力会有什么样的效果这一步做好了之后就会大大的节省模型迭代的成本 scaling laws 就数据量和表现的这么一个xy轴然后随着数据量上升它的表现就会越来越好所谓的理解这个scaling laws

是对这个曲线有个比较好的拟合所以它能从更小的数据量判断出来当它数据量变大的时候的效果是这样吗基本上就是这个意思 scaling laws 它是一个经验率至少目前为止并不是一个有理论基础的规律那这个经验是大家通用的还是每家都有各自的secret sauce 就是有秘方一开始大家应该是都是会用

通用的那一些当然因为这个design space特别大所以大家在具体怎么去切分这个space 怎么去理解他们的各种factor的interaction的时候可能各家的做法就会diverge就会不一样他这里其实是你用一定的规律投入更多的compute模型这个compute可以反映成是你用更多的训练数据或者是你用更大的模型去训练

投入compute的方法做对的情况下这个模型会给diminishing returns的一个回报这个回报就是这个模型的可以说是accuracy吧所以scaling laws 基本上就是这个样子可以用在实验设计上的一个方法其实就是说我们可以用小规模的实验去预测大规模的模型的效果会是怎么样那这样子的话

我的实验迭代就可以在小规模去做嘛但是这个大家现在也其实知道大模型有emergent properties 就是有一些本来小规模做不了的大规模上看起来可以做了突然piu～对突然就可以做了当然大家看到的是positive 也有一些negative的情况是来自于我的模型在某个规模下面突然就不scale了它fall off scaling laws

这个是非常常见的一个坑嘛所以很多lab都必须踩过一遍这个坑知道碰到这个问题的话我应该怎么样去克服它我在小规模上面我应该去看除了loss之外的其他什么变量的趋势我才能够避免这样的坑所以就是说虽然概念上用scaling laws 做实验设计是一个听起来很简单的事情

但是依然会有在scale up过程当中踩坑的这么一个情况这里还是需要很多discipline吧另外就是作为一个经验科学其实很多research 至少过去的research有很多一个不好的趋势是说大家会不由自主的有一点over-generalize一些结论我想到的这个方法在这个case上work 我就说这个方法是work的

但其实empirical science不是这么work的但大家发论文的时候就必须要这样不然的话大家就觉得这个发现没有意义这个反过来也会碰到一些问题就是说有些人在一个setting下试了一个idea 他说这个东西不work 然后他就说这个idea不work 其实很多时候也不是的想在这方面提高的话是需要提高researcher对research的taste吗就是你看到一个论文你大概知道哦

他说的其实不是真实的情况他只是一个case而已主要首先是要意识到这个问题其次在意识到这个问题之后去消化论文的时候重要的也就不是去看他给的结论是什么而是说他的实验是什么每一个实验的setting要看得很仔细就是它到底对于我现在关心的这个场景是不是applicable的

这个我觉得是很重要的一点毕竟实验造假还是少数 Cherry pick可能会有一些但是总的来说实验数据还是更可信的那一部分刚刚说了3个点一个是你实验的方法论research integrity 第二个是scaling law对吧对这个方法的掌握怎么样子用更小的成本得到更有效的信息第三个是你在看别人的research 在学习的时候

其实现在有很多坑所以说要避开这些坑并能更有效地在research里边学到信息对是的是的这个似乎只是方法上的点咱们上次其实聊你讲说一个team要optimize for information gain 所以说你要去做那些高失败率但是能最有效得到信息的东西但你如果说像某些团队是把时间压上来只能做90%成功率的东西

那其实反而更容易失败请你帮我解释这个吧这个可能对很多人来说是一个很反直觉的做法为什么做失败率高(口误)的东西反而更容易走向成功因为不管是成功率太高还是成功率太低的这些你其实已经有一个很强的prior 你知道它大概会work或者它大概不work 对于在做科学研究的时候这个东西就相当于是比较incremental的吧

更多的是说你已经大概率能预测这个结果会是什么样可能更多的是去confirm 你已经有的一些经验直觉或者bias 但如果是成功率正好是一半一半的时候那就是有一半可能成功有一半失败不管是什么情况这个都说明你对这个方向其实了解的比较少那也就是说不管是在这个方向上是成功了还是失败了

你都会获取非常有用的信息试错迭代的速度会快的多相当于你在不断的去在自己不熟悉的方向上面当然你选这个方向肯定是因为它有价值嘛你在不熟悉的方向上面去挖掘那么你也就很快的能够cover一个更大的空间嗯这个是这里maximize information gain的一个主要的motivation 嗯这也是一个实验的方法论然后你上次也提到过

就是有好多个团队需要合作然后这些团队可能都需要work才行比如他需要哪些团队的配合首先这个东西要大规模的训练的话肯定infra团队得靠谱 cluster首先这么多机器得能跑起来这个事情本身其实已经会有一些它的challenge嘛规模大了之后可能会有一些意想不到的bug 有一个简单例子是因为我们现在optimization

都是synchronous optimization 在backward的时候会有大量的compute同时发生在同一刻所有的GPU都会开始算backward的gradients 那个synchronization以及这个compute的surge 会导致所有的GPU在同时draw很多的power 那么这个cluster的power 它的buffer够不够大就是在它data center design上面

做的是不是够好就会受到考验嘛得多大是不是一下得十倍那种感觉可以大很多比idle的时候肯定会大很多甚至有时候 GPU可能会在peak compute的时候他draw的power 比他卡上面标定的power是要高的那data center设计的人甚至都不一定知道这个事情经常会有一些诡异的比如说backward突然node就crash了

因为一个node它的电量不足然后它就挂了首先这个data center clustered management这边这个就是一大块包括这些GPU 它也会坏嘛规模一上去之后有很多GPU它可能会出错它memory bank可能会坏可能会有一些silent data corruption 虽然没有报错但是给了错的数字这种事情都会有这里面其实就是有一个在规模化之后

怎么样保证compute的质量的一个很高的要求大家从一个abstract的理解就是搞数据center是亚马逊的强项毕竟他们有AWS那么多年的积累实际上不知道是不是这样我觉得对于哪一家云厂商都是有学习的一个过程的嘛毕竟这个东西本来没有并且它性质上可能更接近超算云服务的

他的做法其实更多的是规模化然后再零售少量的计算这个方式他的各种设计的思路啊各种运作的方式之类的更倾向于那个而不太会像超算那样所以超算呢是一个比较独特的 workload的一个场景吧然后data center这一层搞稳了然后fault tolerance做好了之后

分布式训练它的性能和效率怎么样做好其实有很多东西要做包括你这个模型怎么样去并行的去做这个计算哪些东西分块分到哪里你这么分块之后它这个通信是在什么速度的network上面发生的是GPU上NVLink发生的还是在机器与机器之间的connection 去发生的

它的latency带宽什么就都很不一样嘛然后包括很多系统细节上的优化比如你GPU你要让它一直能够保持busy 能够尽量算更多的东西那你就要尽量减少这个访存那减少访存一个很常用的方式就是把算子去融合起来所谓算子融合就是比如说我算完了一个Matrix multiplication

然后我接下来要算一个activation function啊一个Tanh或者Sigmoid的之类的我如果这个中间需要把这个结果写回去再读回来再做那个内部计算那我就会多一次访存嘛我如果把这两步同时做 Matrix multiplication之后我的epilogue 就是结尾加一步Sigmoid这个function 那么我就省去了一次访存

所以我的计算性能就会变高但是做这件事的人就需要既懂模型又能改模型的那些计算又要懂硬件且他要懂network 那这个人一般是什么样的人呢这样的人就其实非常非常少比如像Google这样的大厂他们其实更多的是把这个角色单独分开的他可能非常懂分布式训练然后他在帮助优化的时候

去理解一下这个模型怎么做然后再去优化它当然这个也是依赖于他们强大的 infra和compiler的这个基础设施嘛这个其实是长期投资体现出来的回报我听一个rumor啊就是其实像在DeepSeek这样的公司反而模型data做数据的人互相之间的工作很了解所以说他们可能合作上是可以很紧密的

但听起来就在一个传统大厂尤其他之前没有做超算不去解决这些问题他没有对应的业务的时候他很难凑齐这样的人对是的其实最重要的点还是这个大模型要做出来必须所有的这些方面都做对前面说数据中心分布式训练包括后面预训练的时候怎么做实验设计怎么做模型框架设计什么的这些

包括后训练的那些方法 inference的那些框架什么的除了这个之外 science上面还有evaluation要怎么做对这个其实是最重要的嘛只有这些全部搞对了才有可能做出一个好模型做出来的几率有多大就全都搞对了全都搞对就一定能做出来这个事情并不难能做这个事情的人其实很多就是需要知道

怎么样把它组成一个团队然后把它能够结合起来让大家一起deliver 这个东西大厂可能会存在一个问题是说这些东西就可能分给不同的director去做每一个director他自己都有自己的团队一个小culture 他的人才密度可能不一定够把那个东西做对小而精的团队大家虽然没有办法很快的把某些东西都铺开

马上把所有task都做了但是他至少做的东西都是对的而且这个做对的速度也会更快对吧小的团队没有很多交流的overhead 不光有交流的overhead 还有大家自己的scope politics 互相拖后腿拆台确实会有就哪怕大家都是well intended 然后大家都努力在做这个事情依然不能避免的是 talent density 不够的情况下

就没有办法把一个重要方向完全做对那小团队的优势就是我可以快速迭代我发现错了我就赶紧做对更可怕的还是Google那种模式嘛就是他的团队大但是大家的culture都是非常technical 非常science driven 不同团队的人才密度确实也够把每个方向都做对那你也就会看到他不但能快速的catch up 而且他会有非常快的迭代速度

确实所以说是data center 分布式计算然后pre-training的人应该还有data的人对吧就pre-training和post-training 其实都需要data的人 data这一块需要的就是好的常识好的taste 一般数据如果有问题的话足够聪明的人知道要把控质量的人只要愿意花时间去努力都可以迭代出一版比较好的数据来

数据有问题怎么看出来然后怎么叫从不好的数据迭代成一个好的数据就比如说之前AI2他们讲过一个比较有意思的例子就Reddit上面有一个subreddit叫做microwave gang 那个subreddit里面的人不干别的就他的所有comment 都是用text去模拟那个microwave的声音然后你就会发现有很多MMM......

然后你就会发现有很多MMM......

然后突然可能会来一个ding~ 这个文本就哈~跟其他的文本完全不是一个domain的嘛这个会导致很多这种loss爆炸之类的这种情况出现之前AI2他们就是碰到这个问题也讲出来了像这种就显然是低质量没有用的一些数据嘛包括网上其实很多网站都是为了search engine optimization存在的

它的这个里面有很多垃圾文本那些都得过滤掉这样子这种低质量文本就只要去看了一定能找到也一定知道怎么样去掉它嘛去看了这件事说起来容易做起来很难吧因为它的文本太海量了 trillion级别的文本是吧怎么可能看（的）过来呢这个的话这么说吧你不管什么文本

那Google它能够index多少文本对吧嗯这个search的那一套technology 其实现存的已经是能够做这个事情做得很好了所以就是说 scalable的工具想要有都是现成的那大家就是得问这个问题然后知道要用这个工具要把这个工具做好就可以做这个事情你说的所谓的愿意去做这件事不是说他愿意自己去看了以后人为的决定

而是说他知道有这个问题他想解决这个问题然后用工程的方式去解决它对对对对甚至很多人洗数据用language model去洗嘛用language model看这套文本里面有没有什么质量问题这就有一个巨大的debate了就是用language model去evaluate language model 用language model去清洗language model的数据包括合成数据 synthetic data 我觉得从信息增量的角度来说

这个不是特别make sense 你都是endogenous的信息没有exogenous的信息所以说你没有什么新的信息就按道理你就是改变一下你的方程就可以去得到那样的(结果）这样做你觉得他本质上是有意义的吗然后我猜他肯定是有一些现实的意义的那这些现实意义在哪和他的边界在哪用language model洗language model的数据你说的这个点就是说它并没有增加信息

我觉得从overall来看确实是这个样子的但前面我们讲language model 数据库抽象的时候也讲了不同的granularity 以及它组合的这么一个东西嘛这里还有一个技术点其实是说生成文本本身是比理解这个文本好不好要更难的一件事情所以如果说已经生成出来了之后很多时候可能生成的时候

这个模型生成的并不好但是这个模型知道这个生成的不好那他就可以过滤掉所以就是说somehow这个他还是能够让数据质量变得更好的还有一个思考这个的角度就之前有那个猴子打字机随机的打打出莎士比亚那个就是他的point是在你虽然只有26个字母你的combination 其实是cover了所有的信息嘛

也就是说这个space下面你要的信息它其实是已经存在了嘛就是你得知道去怎么样找出它然后找比生成更简单对就是找比生成更简单对有这个asymmetry 那合成数据这件事呢就是用合成数据训练模型这种左脚踩右脚可行吗这个也会有用最近有一些distillation类的工作

其实都是往这个方向去推的嘛不过确实可能更多的不是说他能够无限的左脚踩右脚然后模型还不崩而是说你可以做那么一两步但边界怎么样现在大家还要再去探索一下我对合成数据的理解啊一直是它是其实是在改变权重我原来这部分的数据比较稀疏然后我generate很多数据了以后

它其实没有带来增量信息但是它可能这部分的数据它的权重就提升了对确实可以是这个样子这个也是前面说的用不同的granularity把数据提出来然后重新组合一下看看有没有用再放回去的另一种表现形式嘛我还看到这两天还有一些paper 是说self-distillation 它其实相当于是希望模型自己左脚踩右脚

但是它的reward那一头这个模型其实会拥有比生成这一头更多的信息通过这个方式哦～让你猜对通过这个方式自己去调和自己吧有点像啊人好坏啊 hhh 但是是有道理的就感觉女生跟男生谈恋爱的时候设置一些奇怪的test那种哈哈哈对吧回答对了那说明你小子有潜力

对对对看看是不是能开悟啊有意思嗯希望他们能找到这种有灵性的模型吧选出来有灵性的模型那做data的人是什么样的人听起来不是data scientist们嗯可能他的专业训练本身不是那么重要因为我前面讲到这个数据看着好还是不好会有什么问题之类的

其实很多是常识性的更多的是说你要能够知道问什么问题用好工具去把这个答案找出来然后要enjoy这个过程我觉得主要要的是这样的人是不是data scientist我也不好说因为我其实data science这个role那边 interaction其实没有那么多那你跟那些打交道的data 他们的background是什么样子一般

其实有挺多是NLP或者machine learning的 PHD这个样子我们又讲了一个 data pre-training post-training或者mid-training 还有吗 evaluation其实也是跟data有关但evaluation其实是所有的东西里面最重要的因为假如之前某些友商他evaluation搞对的话他是不会把那样的模型放出来的

对吧至少决策不会做错一旦出现这样的决策错误呢很明显就是evaluation这一步就是错的那么evaluation 通常又是大家不同团队迭代的目标嘛所以这一步搞错了就很容易出问题这里面跟认知也有关系有很多一开始做language model的人他觉得evaluation这个东西在language model里面你overfit什么的其实没有关系

你有leakage可能不太要紧这完全不是这么回事为什么大家有那样的直觉然后那个直觉为什么不对因为很多人可能就觉得模型的知识本来就是预训练里来的然后预训练就是什么文本都放进去对于知识类这些东西你就是要他记住要他记住最直接的方式就是这个看答案对训练的时候就看到就overfit嘛但这样子的话

会发生的问题是其他跟数据不相关的那些design上面它的迭代方向就会错哦比如说我做预训练方法我如果数据里面有leakage那我优化出来的模型其实是更偏向于memorize的 benchmark被overfit了之后这个benchmark本身就不能用来指示说我这个模型在这个事情上

做的好不好了我也并不知道这个知识跟其他的知识的它的compression发生了没有做的怎么样那这个就很难去衡量预训练的效果所以这个evaluation其实是非常难非常重要的一点你说的evaluations呢和现在市面上大家教的那些AI Evals 是不一样的 AI Evals 那些是拿一个AI产品做一些work flow 然后就衡量一下整个东西的质量

你说的是LM本身在训练的过程中那在这种情况下本身这方面的人就已经是很少的啊就不要说市面上做AI Evals的和这个没有半毛钱关系那这些人主要也是NLP machine learning scientists们是吧researcher 对也主要是这样的角色而且evaluation 一般来说一个团队要把evaluation做成功 public的那些benchmark 其实大家模型都见过

然后也很难去衡量嘛如果只依赖public benchmark去做自己的模型evaluation 其实是一件很危险的事情比如我举一个简单的场景有一个数据厂商他跑过来说我这边有一份非常强大的数据它可以让你模型能力大幅提升但是他可能实际做的事情是说在他猜测你会测的那些benchmark上面

他去paraphrase一些数据进去它相当于是没有exact match但是有leakage嘛那在这个情况下这个模型如果只测那些benchmark 我当然会大幅提升了所以解决这样的问题其实最重要的还是每个公司自己得有一份自己的secret的一个evaluation的benchmark 然后这个东西是永远不能disclose出来的

嗯～都很有意思哦听起来应该也都是很多这个厂商受过骗的真实教训对肯定是有的还有问题就是大家是诚实的啊然后大家都是想把这个模型给做的更好可是我们现在发现就是衡量模型到底好还是不好我们看benchmark已经不适用了而且我们还不断的发明新的更好用的benchmark的情况下这个感觉是对的吗还是其实现在有一些benchmark

已经非常好的告诉大家模型的效果了普通人吧想要去了解模型效果我们不去看那种这个文章发今天这个爆了明天那个爆了我们应该怎么样子去衡量一个模型好还是不好呢可能还是实际使用体感为准吧我想要实际使用也是需要投入时间的嘛我想有一个大概的就是它不是一个垃圾这种感觉它值得我投入时间我怎么判断

我见过的一些power user 基本上自己有那么几个example 是相当于是自己的小benchmark 然后不管什么新模型来了都会把这几个试一下看一看这些能力对不对效果好不好其实跟前面说的比较像可能就是规模小一点一个是看模型效果一个是看跟自己是不是relevant我的实际工作然后他能完成的好那OK 那你完全没有提任何一个benchmark

难道任何一个benchmark都不值得看 benchmark现在更多的会成为各个lab 做marketing的一个工具当然这里面要把它作为marketing工具也要小心一点比如我知道这个Humanity's Last Exam那个benchmark 它数据本身错误率就很高可能有40%多所以你要是给我刷出个70%的分来那你肯定是对吧再讲这么几个我们不知道的

让我很震惊的东西 What the fuck?

我完全不知道好多模型的这个分都很高啊啊对就是如果刷的很高呢肯定会有问题嘛我觉得这个是最典型的一个例子是什么问题主要是那个数据本身他给的答案是错的不是我是说他如果刷的分很高证明了这个模型有问题证明的是这个模型产生了数据leakage的问题还是产生了什么问题说明他见过错误答案嘿嘿就是嘿嘿

嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿(≖‿≖) 给了你一套这个小抄小抄竟然是错的对啊老师一改卷子发现怎么错的都一样嘛呃哇塞再说一个得罪人的当时腾讯小马哥说我们3D模型已经是SOTA了然后我还问了一些内部人员这个是怎么来的他说是在一个很靠谱的benchmark上确实得分最高然后那个benchmark 我记得是说

大家在真实使用场景下去进行投票你可能不了解背后的每个机制但是你的直觉你觉得这件事可信吗有针对性的优化过的话很多时候可能这个地方犯错并不是说 scientist真的故意要去直接刷这个分因为直接刷这个分的话应该可以刷的很高嘛很多时候更多的是我就是急着要赶deadline 上面指标下来了

我要把它做上去然后我可能在选我的数据的时候就没有像我应该那么小心的去做这个事情那么可能更多的会有一些间接的这种contamination啊之类的问题就是反而你想不得高分有的时候是一个更难的做法得高分反而是一个简单的做法如果有做模型的商家在看这个的话我会觉得就是

你至少在内部开发的时候不要去overfit benchmark 之后marketing的时候你再overfit再说吧不要影响内部团队的开发进度嘛非常的反人性实际啊在我看来就是一个 KPI衡量versus science精神的这么一个PK 就是你试图用偷懒的方式去管理这种科研团队

你试图去把它用各种quantifiable的东西去衡量然后不管是deadline还是你的这个score 甚至包括你的什么研发进度也好啊薪酬也好啊所有这些东西其实都反而会导致你这个科研精神的损害最后导致整个事情是不好的对是的长期来看这个市场一定会纠错嘛因为毕竟你分刷的再高

你放到customer手里他不好用那还是不行嗯好那关于这个模型训练你觉得我还有什么地方没有问到的你觉得一些你在过去的工作中的一些实际的感受啊见闻啊或者说你的领悟啊我可以讲一下我这边因为我自己带的相当于是预训练的research的团队嘛我是怎么设计我们的这个incentive的

来来来please 当然首先我们整个team还是比较秉承大家要做好science这个事情倒是convince大家说不要overfit 要尽量用干净的data什么这些还比较容易然后我们在有了干净的data之后其实相当于是要在pre-training 这么一个很大的space里面去make各种bets 然后去看怎么样能够快速的

迭代出更好的模型来那当然我们会用skinny layer什么的这些方法去降低成本但就是说我们能scale off的机会本来就还是比较少那么我们现在怎么样去衡量我们自己team的research的progress呢我们相当于平时是所有的researcher 在自己专长的那个领域里面会自己去迭代去探索最新的那些方法

用前面说的information gain那个方式尽量去学更多的东西然后看哪些方法是promising的然后每一个quarter 会去要一批更大量的计算来让我们实际的去试着scale up一次多大不能说我们这边的多少但是一般来说比如10-23次方FLOPs之后各种benchmark 包括一些reasoning benchmark

也都可以看到非0的数字了嘛这个大家其实基本都用的那个规模然后每一次这个scale up 都是给我们测试一次我们自己的各个方向上的design 做得好不好的一个机会相当于是一个实战的一个演练吧这样子的话我们其实每一个quarter都可以知道我们相比上一个quarter 我这个模型训练出来到同样的accuracy

我可以节约多少compute 然后我们这个其实相当于就是用cost-to-accuracy bar 这么一个方式去衡量我们训练的这个研究进度的这其实让我意外的点在于你们是没有算力支持的作为一个这样的研究团队 OpenAI也是这样吗其实在不同的企业可能都会有这样的情况

production会需要大量的计算 hosting需要大量的计算所以怎样能够保持compute的allocation 这个其实是一个难点吧我们也不说没有计算我们其实平时计算还是挺多的就至少每个人跑一些中小规模的实验什么（的）都是没有问题但等到比如说真的要跑大规模训练的时候那可能需要的机器会更多一些

那我们就会去对应的要一些然后去做这样的事情我发现包括我大多数观众对于大模型训练到底需要多大的数据缺乏概念甚至包括很多machine learning scientist 也有这种感觉就是他没有内化这个区别帮大家visualize一下你说训练的文本量会需要多少是吧或者需要的算力的差别

平时是可能每个人几台机器做一些小规模实验这个其实迭代就已经很快了就可以做很多东西真的要到scale up的时候可能一整个data center都得用到一起去跑一个job这样子总之就是你们会得到一个data center的这种piu～给你们一下嗯对然后训练的过程中用的文本可能几十个trillion的token吧

那就是可能几百个terabytes的就光文本嗯哼哼哼哼～还是能想象出来的刚刚有说你平时有一套的evaluation方式然后你会去拉到这个实战上你的具体的这个标准比如说对老板汇报的时候的标准这个算力to accuracy的这样的一个ratio 对这样子做有一个好处是

相当于我整个team每隔一段时间都可以去出这样可量化的一个跟直接business相关的结果对自己team内部的incentive有一个好处是因为不同的方向research都需要发生但是不同的方向上可以得到的gain 它的周期又都不一样那我还会有一个需要去权衡不同的人

他可能做的方向 expected gain不一样的这么一个问题但如果大家都是打包一起去做就不需要说变成我去justify 每一个人save了多少这样的问题 oh yeah 因为刚刚的这个本质就是你需要每一步都做对他才有可能整体有效果但确实你如果拆开的话你就会说这个点他有贡献了80% 那个点贡献20%

但其实20%也是必要的对包括有一些可能比如深度学习理论做的比较多它告诉我们某一些初始化某一些scaling应该怎么做但是这个本身可能它并不能直接反映出gain 但是它enable了everything else 这样的情况下我依然需要去encourage这样的research 那么最好的方式就是一个team整体打包

去做出一个新的recipe来然后大家就衡量那个recipe 那你自己衡量individual researcher的时候你怎么衡量呢更多的是说看比如他做的这个工作跟他现在所在的那个方向去比吧比如现在外面大家在用的optimizer怎么样然后我们自己做的optimizer怎么样这个其实就可以看到他在自己的方向上推的有多远这件事很难

因为要求你对每一个方向都了解且你能从这个工作本身去判断而不是从一个结果数据去判断对是的我更多的是把这个看成对于我来说是个学习机会吧因为我就需要确保每一个方向上他做到什么程度我都要有能力去深入了解所以你看现在大模型相关的

大多数这些方向你都能对这个人的水平有一个了解大致应该至少有一个认识吧可能不同的人技术路线那你以你看起来评论一下市面上的著名人物的水平呃这个就我觉得不说了吧哈哈哈还有没有什么没有touch到的点你觉得技术上的话

我会希望比如说现在还在学校的PhD 尽量多去接受一些工程训练嘛做一些不scale的事情把比如说那种高性能计算里面常见的一些technique啊 communication pattern啊什么的这些即便可能跟自己的machine learning 研究方向不一定相关但现在这个东西搞懂其实挺重要之后的所有的research

基本上也都需要好的implementation skill去drive 所以在一个实现的throughput 赶不上idea生成的速度的情况下 bottleneck其实在实现上大家应该更重视一些这个skill 你有没有什么具体的field 你觉得他很重要但是人才不够多的包括做kernel的优化包括做分布式的模型的训练的设计啊

还有就是networking communication的一层怎么去实现好的高性能的pattern 现在到处都还是挺缺的吧利好NVIDIA sounds like还是算力不够或者是算力利用的不够好对算力的利用率可能是一个大问题你觉得NVIDIA可以解决这个问题吗就是他一直其实也都在搞自己的超算嗯显卡是越造越大了我觉得他肯定是试图解决

并且通过这个去抢占更多市场吧而且他也正在做很多那种应用性上面的改进包括他们那个tile language 那个就是用更高层的语言去写kernel这个东西这个是相当于填补了Triton compiler 在可能最近两代的这个GPU上效果不够好的一些feature gap啊之类的相当于填了那个坑 NVIDIA其实很努力

一直是在继续推进和保护它的这个护城河的你觉得它有明显的competitor吗明显的competitor 大家都想做competitor吧我觉得这个的难点是这样子的不同的硬件厂家他有了硬件之后其实才完成了一小部分从深度学习框架一直到下面的compiler 再到那些硬件什么的这个中间其实还有很厚的一层

中间针对自己硬件的那个compiler那一层大家的software的sharing其实是不够的那一层并没有太多的什么标准然后导致说不同的硬件厂家即便大家利益是一致的大家都想去抢占市场 compete这个NVIDIA对但是因为底下硬件这里他会有一些比如proprietary的东西或者怎么样

就导致可能到instruction这里并不一定都是放开的嘛这个就导致说中间这一层很难有有效的比如说open source啊或者其他类似的 software sharing的这种strategy 当然这个问题我觉得现在可能会变得好一点因为现在software便宜了所以还是希望现在已经有的硬件厂家抓住这个机会把自己compiler做做好

但听起来不太容易构成竞争威胁对这个东西是挺难的本来就是挺难的而且另一方面就前面说的NVIDIA很勤奋嘛他们也会用agent去写自己的kernel 他们的CUDA Library improvement的速度也变快了很多对就不要说他们本身就是最卷然后人才最集中资金最集中 leadership vision最好的公司可能没有之一就抛弃这些

他的那个护城河其实远远比大家想象的大不是在于这个硬件本身而是在于他的生态且这个生态似乎听起来就是一个马太效应很强因为他这个生态其实是个标准所有的其他的上面的东西只能跟着这个标准来你compete一个标准对于第2名到100名加起来也很难搞定这件事我们接下来就聊第二个话题你对一些未来trend的看法

我觉得可以先讲一个技术上我们接下来可能能看到什么样的disruption 这件事情我觉得可以先讲吧因为前面正好都在讲技术我们前面用了database这个抽象然后Frontier Labs都在通过劳动密集型的方式去给这些表去做完善然后去填表用大量的人手去找各个方向的数据

然后放到模型里面去希望大家能用起来还有就是已经有很多用户的那些厂家他会从用户那边得到很多新鲜的有趣的一些intent 这个也就给了他们信号说这个填表应该填什么不是给他们具体的填表所用的数据而是给他们信号填表用来填什么也可以是用数据肯定他们有团队去从用户的prompt里面去挖

哪些是有意思的应该去填的应该去收集数据的那这里面其实模型的改进它的bottleneck还是在人因为你要cover一个新的domain 你依然需要人去找这些intent 然后在post-training 找到对应的environment和对应的reward 把它program出来然后再通过模型训练放回到表里去但是

如果模型它会自己去找新的environment 去找新的reward 知道做什么样的事情是对的做什么样的事情会是错的那么他的学习就会不再依赖于人这个bottleneck 你说模型找reward是找新的reward function 嗯对可以是找reward function 可以是找其他reward信号

reward function是把人类都干掉怎么办呃...这个可以作为下一个话题说

呃...这个可以作为下一个话题说

就是自己如果能生成reward的话那他可能形式上就会更接近像Alpha Zero这样的情况对只不过这个environment 不再是一个简单的close的environment 而是说开放式的一个environment 包括前面讲有些lab在做singularity在做self improvement什么的我觉得很有可能他也会需要依赖把continue learning

把自己去找signal 自主的去学习这个能力先去解决了那么他才可能会在这个新的domain上能够快速的去改进它你看我理解对不对就是模型现在非常善于答题但是他不善于出题然后你刚刚说的就是模型能自动化的出题对而且出的题可能并不是说是跟前面形式很像的

可以通过排列组合这个已经见过的东西去解决的而是说比如有灵性的题目有一些新的环境比如说我在火星上面我要这个模型帮我去做一些planning啊怎么样的就可能gravity不一样了很多东西不一样这个新环境它能不能做对包括如果是做self improvement 那就是AI改进AI的这一部分里面相关的问题

他能不能自主的快速的去学习所以从这个角度来看其实从技术上来说如果我们想说他是下一个突破点的话可能就是他能够自己去做这个学习那么对于用户的体感来说更多的是要不然就是他是非常personalized 只要给了他context之后他马上知道我需要什么他能够很快的去做那些只有我知道的

或者是只跟我相关的一些task 然后他能做的很好或者说是像self improvement啊或者其他的什么他目前不太擅长的domain 他可能能够快速的学会那些domain 就不会像现在这样再觉得是好像最近碰到了一个瓶颈模型进步速度没有那么快了可能再也不会有那种感觉因为他一旦能self improve的话呢

就再也没有人这个bottleneck 而且听起来这完全是可以做的到的对这个一旦解决了那其实还是回到填表的抽象的话那就是填表的成本会降10倍100倍或者是就降到基本没有假设这步解决了它到底这个模型它是什么样子可能我们不管是什么现在必须要靠人做的任务

他都是可能一两天之内他就学会了再也不需要人去做了而且他自己会提问对 yaeh～我现在跟他说你如果给我出一个视频脚本他确实bottleneck是在提问这一步只要我能问正确的问题他都基本上能给好的答案但是他不知道提什么正确问题的话 yeah～你觉得这个东西的实现可能性有多大

个人觉得三五年应该能解决吧 100%？ 99%？

100%？ 99%？

我还是比较conservative 我会比如说70%在五年之内解决 70%非常的不conservative吧哈哈哈主要体感的区别是在于我不会像现在这样子每一个session跑完了相关的task我还得重新prompt一遍如果这个模型deploy到机器人上我真的可以教会他马上做一些东西教会了之后他以后就一直会了包括新的一些场景新的任务

他可能解决的会比我更好都不要说什么模型天网统治了就简单的我我说我特别讨厌一个人你去帮我搞他或者说你去帮我对他做点无伤大雅的恶作剧但是让他难受一下那机器人就会去做各种恶作剧这听起来就有点可怕反正肯定是会进一步加强这个power的concentration嘛哎我昨天看窦文涛的一个节目嘛

他请的是那个冯时他讲我们中国的道德或者文明里边其实一直aware of你什么样的智慧是不应该有的就不是所有的物质都对人有好处然后知识是应该是有局限的一个无限的知识其实很可能带来的是一个bane 但是没办法我的观点一直就是说当这件事情要发生的话人是阻止不了的

就没有什么机制可以阻止嗯对从人的角度来讲就即便我说的这个技术变革没有发生那接下来对于人来讲这个趋势是什么样子的可能24年25年开始很多比如LinkedIn上有些刚毕业的学生来会问我一些职业上的问题嘛我也会尽量想办法就能回答就回答他们那个时候开始给的问题就是

我发现现在entry level job非常难找了当然这个这两天可能情况会更加剧嘛不只是entry level 你会发现因为AI能替代的这个技术水平越来越高先是entry level开始从入口卡死接下来是越往上的job level 也是越来越少这个情况其实就相当于是基本就否定了以前说的这种传统的career的这一条路线了

前几天一个嘉宾他发现career这个词呢其实是工业革命造出来然后为了让大家可以有一个这样目标然后他想了以后觉得哇是不是自己疯掉了自己怎么可以做这么叛经离道的后来去看乔布斯写了一模一样的东西就是career这件事其实是个假的东西对那现在career这件事情是假的这个体验大家体感就会非常的真实嘛因为它就是不存在

那既然是career这个东西不存在了那么大家现在面临的主要的一大问题其实是怎么样去继续参与经济活动嘛所以我个人觉得啊课代表你现在做的这个事情是大家应该效仿的谢谢我在2023年的时候出了一期视频我就说给大学生的三个建议因为我怕大家说我爹味然后我说给那个工作的人听他们觉得不好听

说你要去寻找一个公司之外的价值你要在公司之外能创造价值然后你要去对看看人生的意义我说是说给大学生听的但是我是说给所有人听的从那个时候就意识到了就是打工这件事不会再持续特别久那个时候为什么我要去说给大学生听因为我说出来就被人骂然后到24年的时候我说然后又被人骂然后说贩卖焦虑bulabulabula 你怎么怎么样很多时候人面对一个新的变化的时候

就是不愿意去动作嗯这个也确实没办法人有人的局限性嘛不过另一方面来讲这个现实它其实并不care 我们的feeling到底是怎么样的这里的matter point更多的是说我觉得接下来会有一段可能比较困难的重新figure out组织形式的这么一个过程拿美联储举个例子

他调利率的时候他看什么他看通胀他看就业率对吧但我如果把利率降低了之后我资金都是流向比如说AI的这些产业我都是投到这个尽量发展AI 从而保持美国在国际上的竞争力那这个过程当中它又不是劳动密集的那么也就是说

大部分这个资金的流向并不会反映到就业率上去那也就是说本来调利率的这个工具其实在这个情况下就失灵了嘛同样的你如果因为就业率没上去大家income没有上去那你inflation也不会上去对吧呃...那不一定

呃...那不一定

income不上去 inflation有也可能上去啊那确实是对这里可能主要会有的一个变化是在于生产力发展如果脱离于这个劳动力了那么很多原来有的机制会失灵嘛我稍微说一下啊这个在经济里边倒不是一个新问题十几年前吧我记得当时 Krugman在New York Times就写了他的OPS 经济学也有很多讨论就是我们似乎所有的东西都是favor capital

但是在经济学的宏观经济模型里边就是labor和capital本身是一个 trade off 越资本密集的企业就越不labor intensive 如果说我们的目标是要create more jobs的话你去把所有的policy去favor capital 这个好像不合理所以这确实是一个长期以来的趋势但问题是什么呢就是capital的influence 对这些policy的influence是非常强的

所以说他们就会去把更多的资源放到自己身上现在AI可能就是加剧了还有另外一个文章我觉得也很重要就是说本来啊你在AI之前你是所有的capital 想要达成一个东西你是需要人的就比如说SpaceX 那为什么Blue Origin花了那么多钱他没有办法像Elon Musk那样学因为Elon Musk懂得怎么管人懂得怎么把这些科学家们work

但是未来AI无所谓的人的智能commoditize了所以说你capital就可以直接作用到结果上这对有钱人来说是好事但是对于labor 就是打工人来说是个非常不好的事情对是的而且即便民众比如说更希望其他的policy 去至少确保人的welfare 但这个事情在有国际竞争的这个情况下也很难实现

因为不管是国与国之间竞争还是企业之间的竞争其实大家都是希望生产力进步嘛这个压力始终是存在的这个动力是确保他怎么样持续下去持续存在的这么一个根本动力嘛那这样的情况下就会导致说大家不得不把资源投到更容易提高生产力的方向上去

那么反映在现在这个阶段就是我投了很多资源可能最终发了很多电那这些电得给AI用不能给人用即便每个人能源消耗增加可以增加他的生活标准所以这个是已经开始发生的事情我对宏观还是相对乐观的我对尤其科技公司打工人 which is我频道前面观众的个体的命运非常不乐观

但是我觉得宏观来说还是相对乐观的因为你看就是我们这些knowledge worker啊被AI取代工作的这些人其实不是主流我觉得大多数人他们的工作没有被AI那样子的去消灭掉举个例子啊就比如说我的娃去daycare 然后他的老师绝大多数时间是在照顾他嗯但是老师要干一件事就是每天要log他吃了什么

然后我就看他老师log肯定很不仔细了因为他要log好几个娃这件事他是在照顾娃过程中去做的那AI可以帮助他更快的做这件事让他能更好的照顾娃这个过程中似乎也没有导致任何人损失工作除了那个不称职的那个软件公司也都还好对那如果带娃这个事情变成了仿生机器人去做的呢这就是我不知道的

就是我自己没有那么看好机器人它可以那么快的应用然后原因是什么呢原因不是说它的算法不ready 我相信算法这件事是可以解决的但是sensor和控制其实并不是一个(容易)解决的问题就是我们手上的这个sensor啊就是一个手上的神经元 sensor这些东西是非常非常敏感

就是把火箭发射到月球上是一个简单问题它不是一个complex问题你算好了以后你可以发射了但是你拿铁拉花甚至你拿一个杯子它是一个complex问题就是它的系统的复杂度非常非常高比如我们化学可以合成钻石但是我们合成不了翡翠合成不了蓝宝石是因为化学物稍稍复杂一点就不行所以说我们能produce可乐不能produce红酒

因为红酒上有几千种chemical compound 就是我们人类科技水平在这我们想让这个仿生机器人做到任何一个科技水平其实都在这从这到这我觉得好像没有大家想象那么快解决了算法以外就像你说的硬件啊 sensor啊控制器啊这些东西好像还差得远我们大多数的控制器现在还是六轴电机啊就没有那么容易的控制对现在是就主要是解决了

持续学习之后会怎么样这些问题本质上没有比其他的问题更复杂可能space稍微大一点嗯...我觉得理论上

嗯...我觉得理论上

你在地球上盖一个1,000层的楼没有更复杂吧但是盖不出来但是你在digital world盖一个1,000亿层的楼都是盖得出来的就是digital world是非常scalable 我们现在去解决的这些数字的问题是我们有很强的复杂性因为在数字过程中它太精确了所以说我们可以非常好的deal with 这些复杂性

但是在物理世界中我们对这个原子的control 其实不是那么精确所以说我们想要去做一个复杂的东西在我看来啊就是人类科技现在还有一个很大的一个天花板对我也可以理解这个perspective 是的这是我的perspective了我还是希望人类的科技可以piu⇗ 我觉得是有这么一个天花板在的甚至我觉得人类智能相比machine的智能其实很小原来在机器出来之前

我以为我很聪明现在我就觉得我的智能其实非常的薄我能很明显的感觉到机器想要超过我就比如说解锁了你说的那个东西我在他面前我的智能就非常渺小的存在就是我们人类这么多年的历史所积累下来的那些智能都是很薄的一层存在嗯即便现在的这一代的机器人他的包括对知识的不说理解吧至少了解上已经超过所有人了

好这是未来的趋势你还有没有什么你觉得很想跟大家分享的关于未来的趋势的一些想法判断这段我说的有点多啊不好意思哈哈哈没关系没关系我是觉得反正现在是不确定的时代大家还是要可能这个还是反脆弱那一套嘛现在是take risk的时候大家应该要积极勇敢的去take risk 嗯好的好的好的

非常感谢今天来访谈今天聊得很高兴非常谢谢谢谢课代表提供这个平台大家回头有什么问题的话也欢迎来问我们可以有机会再请你不管是来节目还是来社区里边再跟大家互动一下为什么做失败率高(口误)的东西反而更容易走向成功成功率太高还是成功率太低的这些你其实已经有一个很强的prior 你知道它大概会work或者它大概不work 更多的是去confirm

你已经有的一些经验直觉或者bias 但如果是成功率正好是一半一半的时候说明你对这个方向其实了解的比较少不管在这个方向上是成功了还是失败了你都会获取非常有用的信息试错迭代的速度会快的多你也就很快的能够cover一个更大的空间 NVIDIA其实很努力一直是在继续推进和保护它的这个护城河的你觉得它有明显的competitor吗这个的难点是这样子的

不同的硬件厂家有了硬件之后其实才完成了一小部分从深度学习框架一直到下面的compiler 再到那些硬件什么的这个中间其实还有很厚的一层针对自己硬件的那个compiler那一层大家的software的sharing其实是不够的有一个数据厂商他跑过来说我这边有一份非常强大的数据它可以让你模型能力大幅提升但是他可能实际做的事情是说

在他猜测你会测的那些benchmark上面 paraphrase一些数据进去相当于是没有exact match但是有leakage嘛模型如果只测那些benchmark 我当然会大幅提升了解决这样的问题其实最重要的还是公司得有一份自己的secret的 evaluation的benchmark 这个东西是永远不能disclose出来的

Loading...

Loading video analysis...