【人工智能】持续自我提升式AI | 斯坦福杨紫童博士答辩 | 合成引导预训练SBP | 实体图数据生成 | 模型自举 | 算法演化 | 跨文档相关性 | 自动化AI研究员 | 下代GPT架构探索

By 最佳拍档

Summary

Topics Covered

AI三大局限封死发展天花板
实体图合成攻克小众知识遗忘
合成引导预训练自举突破数据限
AI自主设计算法超人类专家
算法演化让AI必然超越人类

Full Transcript

大家好，这里是最佳拍档最近有一场博士答辩引发了AI圈的关注斯坦福大学华人博士生杨紫童的毕业论文《持续自我提升式AI》的答辩视频不仅收获了OpenAI前CTO、PyTorch之父等行业大佬的点赞转发更被业内称为定义下一代AI发展路径的里程碑式研究如果你还在好奇 AI能否自己进化、人类数据用完了AI该怎么办

或者未来AI会不会超越人类这些问题那么今天这一期内容将会非常关键首先我们先来认识一下这场答辩的主角杨紫童他既是斯坦福大学统计学博士也是Thinking Machines Lab的核心研究者 2026年3月3日他在斯坦福完成了博士答辩随后第一时间在社交平台分享了答辩视频和幻灯片链接

并且感谢了答辩委员会的各位导师这份答辩委员会的阵容堪称神仙配置主席是斯坦福大学电气工程、计算机科学与管理科学三领域教授斯蒂芬·博伊德成员包括斯坦福大学计算机科学教授Percy Liang、数学和统计学教授埃马纽埃尔·康德斯、计算机科学助理教授立木健典

还有刚刚从Meta跳槽到OpenAI的知名研究员庞若鸣这样的豪华阵容本身就预示着这项研究的分量更值得关注的是杨紫童的答辩推文还得到了众多行业领军人物的认可包括Thinking Machines Lab的CEO、前OpenAI首席技术官米拉·穆拉蒂以及PyTorch之父苏米斯·钦塔拉等等他们纷纷留言祝贺

而这项研究之所以能引发如此广泛的关注核心在于它精准命中了当前AI发展的三大致命局限并且给出了系统性的解决方案我们先来明确一个核心定义什么是持续自我提升式AI呢？

杨紫童在答辩中给出了非常严谨的界定那就是一旦这个AI被创造出来就能自主且持续的进行自我改进并且改进效果要优于人类创造者对它的改进为了让这个定义更具有实操性他提出了两个前提假设这两个假设几乎涵盖了我们现在所有的大语言模型第一个假设是参数化

AI系统本身基于一个或多个神经网络所有知识都被编码在一组明确的参数权重中第二个假设是预训练 AI系统必须经历一个资源密集型的预训练阶段在这个阶段中它会吸收包含大部分人类知识的训练信号并且将这些知识转化为参数权重简单来说我们现在用的GPT、Claude等模型都符合这两个假设

而早期那种纯硬编码的智能系统则被排除在外基于这两个假设持续自我提升式AI需要具备三个核心特性第一，在初始预训练之后能够持续获取新知识并融入参数权重同时不会灾难性遗忘已有的能力这解决了当前AI学新忘旧的问题第二，能够自主生成训练信号并且从这些自生成信号中获得的提升

要超过从人类生成信号中获得的提升这直接回应了对“人类数据终将枯竭”的担忧第三，能够自主设计学习算法来适配自己生成的训练信号这意味着AI不再依赖人类研发新算法才能进步看到这里，你可能会问我们为什么需要这样的AI呢？

杨紫童在答辩中一针见血地指出这源于人类创造者固有的三个局限性而这三个局限性正对应着当前AI发展的天花板第一个局限性是训练后权重静态化现在的AI模型一旦被人类训练完成并部署它的核心参数权重就固定了比如你和ChatGPT进行一百轮对话当上下文长度达到上限时

模型会进行上下文压缩这个过程本质上是有损的你再问它之前对话中的细节它很可能会遗忘但是人类的记忆完全不同即使过了很久我们依然能隐约记起之前的关键信息这是一种持续学习的能力而当前AI恰恰缺乏这种能力第二个局限性是人类数据的有限性杨紫童展示了一张关键图表

左边是语言模型的缩放定律横轴是训练所用的token数量纵轴是测试损失随着token数量增加模型性能会持续提升但是右边的预测显示前沿语言模型使用的token数量正在迅速逼近互联网上公开可用的token总量即便现在很多公司在购买私有领域数据但是本质上人类产生的数据是有限的

而我们想要训练更强大的模型对数据的需求却是无限的这就形成了一个不可调和的矛盾第三个局限性是算法发现依赖人力人类研发算法的过程本质上是一个从产生想法到实验验证再到形成成果的迭代优化循环这个过程不仅成本高昂而且效率极低我们现在所用的梯度下降、Transformer等算法

只是所有可能算法中的一个子集大量潜在的优秀算法因为人类认知和精力的限制根本没有被发现而杨紫童的目标就是让AI自己来完成这个过程实现用AI来设计AI 针对这三大局限杨紫童在答辩中分享了三个核心研究方向第一个研究方向，是持续知识获取核心技术是合成持续训练

这个技术要解决的核心问题是如何让模型在预训练之后还能持续学习小众领域的知识同时不遗忘已有的能力呢？

为什么小众领域的知识难学呢？

杨紫童举了一个很生动的例子模型对线性代数的知识非常扎实无论是基础概念还是复杂应用都能应对自如这是因为线性代数的相关数据极其丰富互联网上有无数的教科书、讲义、习题讨论甚至GitHub上还有大量相关的代码实现但是如果你问模型一个刚发布的GitHub代码库中

Env和TokenCompleter之间是什么关系模型很可能完全无法理解因为这个小众领域的知识缺乏多样化的数据表征知识非常稀疏为了解决这个问题杨紫童团队提出必须使用合成数据但不是简单的生成数据而是有策略的生成多样化和高质量的合成数据为了验证这个思路他们设计了严谨的实验

首先构建了一个名为Quality的数据集包含两百六十五本专业书籍总计约一百八十万个token 这些内容都是模型之前从未接触过的同时设计了约四千个高质量的多项选择题用来测试模型对这些书籍知识的掌握程度采用闭卷的测试方式不提供任何书籍上下文完全靠模型自己记住并理解知识

他们首先测试了当前主流模型的基准性能 Llama 3 8B基础模型的开箱即用准确率只有39.49%，直接在原始书籍数据上进行微调准确率反而降到了38.15%。

这是因为原始数据的token数量太少训练过程中batch设置和学习率规划无法优化导致模型不仅没学到知识还轻微遗忘了原有的能力作为参考 GPT 3点5的准确率是44.81%， GPT 4也只有51.30%，这说明即使是最先进的闭源模型在小众领域的闭卷知识测试中表现也并不理想

最初团队尝试了一种简单的合成数据生成方式直接重写用“像维基百科文章一样重写这本书”这样的提示词迭代应用于原始书籍结果显示，虽然准确率有所提升但是提升斜率非常平缓最终也没能超过GPT 4的水平杨紫童分析这是因为重复使用固定提示词即使调整生成温度

生成的数据依然缺乏多样性本质上只是对原始内容的简单复述无法让模型真正理解知识为了解决多样性问题团队提出了实体图合成数据生成技术这个技术的核心是两阶段流程首先从源文档中提取核心实体比如从一本关于牙科的书籍中提取出氟化物、牙釉质、牙医等实体然后随机抽取部分实体

让模型描述这些实体之间的关系比如，“在预防蛀牙的背景下氟化物和牙釉质之间的相互作用是怎样的”。

这种方式与简单重写的本质区别在于它通过改变提示词中的实体组合引发模型输出的非线性变化因为实体的改变会直接影响词向量进而让模型生成完全不同的内容从而获得多样化的训练语料实验结果非常显著随着合成token数量的增加模型的闭卷问答准确率持续快速上升最终达到了56.22%，

不仅远超原始持续预训练和重写方式甚至接近了GPT 4的水平更令人惊喜的是当把这种合成持续训练与“开卷问答”结合时模型的准确率达到了62.60%，而单纯的开卷问答准确率是60.35%。

这说明合成持续训练和检索工具的改进是互补的合成训练让模型记住核心知识检索工具提供精确上下文两者结合能实现一加一大于二的效果杨紫童认为这可能是未来开源模型适配个性化应用场景的核心范式第二个研究方向是预训练能力的自我提升核心技术是合成引导预训练

如果说第一个方向解决了预训练后如何学新知识的问题那么这个方向则更进一步解决了如何让预训练本身更高效、更强大的问题杨紫童在答辩中分享了一个关键发现这也是他开展这项研究的初衷在OpenAI的o1模型发布时很多人认为它的强大推理能力源于海量的人工标注数据但是杨紫童团队的实验显示

仅仅对一万条思维链数据进行监督微调就能让模型达到o1 preview级别的能力这个发现让他意识到模型的后训练能力本质上是对预训练知识的泛化预训练才是模型能力的主心骨困惑度作为衡量预训练效果的核心指标与模型最终的性能高度相关因此，要实现真正的自我改进必须从预训练层面入手

那么，预训练的知识到底来自哪里呢？

杨紫童设计了一个思想实验假设世界上只有A、B、C、D、E五个token 训练文档都是这些token的随机组合如果用Transformer模型在这些文档上做下一个token预测模型将无法学到任何有意义的知识因为初始化时模型给每个token分配的概率都是20%，这与训练数据的概率分布完全一致训练过程不会带来任何参数更新

这个实验说明模型能从自然语言中学习本质上是因为自然语言存在着结构性相关性杨紫童将这种相关性总结为两种互补的视角一种是统计学视角认为自然语言的token之间存在统计相关性另一种是计算学视角认为自然语言存在可压缩的模式下一个token预测本质上是信源编码过程

但无论哪种视角，核心都是相关性而当前预训练范式遗漏了一个极其丰富的相关性来源那就是文档之间的相关性比如《哈利·波特与魔法石》这本书和三年后推出的电影剧本之间存在强相关性再比如《Attention is All You Need》这篇论文和GPT 2代码库的第九十一行存在直接相关性这行代码实现了点积注意力

而论文中明确描述了这个概念这些跨文档的相关性包含了大量未被挖掘的知识但当前的预训练只是单独处理每一篇文档完全忽略了这种相关性合成引导预训练的核心就是利用合成数据挖掘这种跨文档相关性从而实现预训练能力的自我提升为了避免被质疑只是在从教师模型蒸馏知识

杨紫童团队设计了严格的三步流程第一步，用固定数量的真实数据从头预训练一个语言模型第二步，不引入任何新的真实文本仅通过微调将这个模型变成一个合成数据生成器第三步，将真实数据和合成数据结合重新预训练模型，观察性能是否提升如果这个流程能成功就说明模型实现了预训练能力的真正自举

即不需要人类提供更多数据或算法就能自己提升自己在具体实施时这个技术分为三个关键步骤第一步是“最近邻配对”。

他们使用DCLM数据集的一个子集通过通义千问0点6B嵌入模型将文档转化为词向量然后根据词向量相似度进行配对比如Transformer论文会和PyTorch的注意力机制实现代码配对哈利·波特书籍会和电影评论配对这样就构建了一个文档关联图第二步是“合成微调”，

以预训练完成的模型为初始化状态采用类似监督微调的目标进行训练即以关联图中一侧的文档为条件最大化另一侧文档的对数概率这里的关键是每个源文档可能对应多个目标文档比如一篇新闻事件文档可能对应多篇相关评论这会极大增加模型的熵让模型学会捕捉不同文档之间的复杂关联

第三步是“规模化合成”，在生成合成数据时不使用任何复杂的提示词技巧仅将生成温度设置为1 对所有真实文档反复进行生成这样做的目的是保证合成数据的多样性比如对一篇小众小说模型可能会生成评论、总结、相关分析等多种内容对一篇咖啡馆推荐文档

模型甚至会自主扩展到浓缩咖啡机类型、咖啡豆选择等相关话题而这些话题在原始文档中完全没有提及为了验证效果团队设计了严谨的实验对比基准组通过重复使用固定真实数据来增加训练量合成引导预训练SBP组使用相同的真实数据和相同的训练计算量但是采用合成数据替代重复数据

Oracle组则使用无限的真实数据同样控制训练计算量不变实验结果呈现出非常清晰的规律在训练初期 Oracle组和基准组的表现相近但都不如SBP组随着训练token数量增加基准组很快进入“饱和期”。

因为反复学习相同的数据模型无法获得任何新知识测试损失曲线趋于平缓而SBP组和Oracle组则持续线性下降说明两者都在不断吸收新知识这个结果证明合成引导预训练确实能让模型突破数据限制实现预训练能力的自我提升定量结果同样令人信服在两百B token、3B参数规模下

SBP组的平均问答准确率比基准组提升了2.32个百分点 Oracle组提升了5.54个百分点在1T token、6B参数规模下 SBP组依然保持了1.32个百分点的提升更重要的是合成数据的质量随着模型规模扩大而显著提升在两百B规模下合成数据的非事实错误率为15.1%，

而在1T token、6B参数规模下这个比例降到了6.5%。

虽然还没有达到真实数据1.8%的水平但是已经实现了大幅下降杨紫童指出，这是因为模型规模越大对世界知识的掌握越扎实生成的合成数据自然更准确这形成了一个模型越强合成数据质量越高从而模型更强的正向循环第三个研究方向也是最具前瞻性的方向迈向AI设计AI

杨紫童的目标是让AI自主完成从提出算法思路到编写代码再到运行实验和迭代优化的完整流程从而摆脱对人类研究者的依赖要实现这个目标首先要回答一个哲学问题 AI为什么能在AI研究领域做得比人类更好呢？

杨紫童引用了罗纳德·费希尔的观点科学进步的核心是从提出假设到实验证伪的循环对于AI来说提出假设本质上就是生成文本这是语言模型的强项而实验证伪在AI领域最终会落地为编写代码这恰恰是计算机最擅长的事情数据也证明了这一点 Swe-Bench的准确率从最初的20%一路上升到接近80%，

说明AI编写和调试代码的能力已经非常强大基于这个逻辑杨紫童提出了研究环境的抽象概念这个环境包含两个核心组件一是上下文，用来描述研究任务具体表现为代码库二是价值函数，用来评估想法的优劣具体表现为实验结果为了让这个抽象概念落地团队构建了两个具体的AI研究环境

第一个是“预训练环境”。

代码库是一个独立的Python脚本用来执行GPT 2的预训练资源配置是8张H100 GPU 评估指标是在OpenWebText 2数据集上模型达到测试损失3.28所需的时间这是一个非常明确的基准测试任务第二个是“后训练环境”。

代码库用来在GSM8K数据集上训练GRPO算法在MATH五百数据集上测试数学推理能力资源配置是1张Blackwell GPU 支持采样器和训练器底层权重的无缝切换评估指标是MATH五百数据集的测试准确率在这两个研究环境之上团队设计了自动化AI研究员的工作流程分为四个核心步骤首先

构思器根据研究环境的上下文生成算法想法然后执行器将这个想法转化为代码diff 接着将代码diff输入研究环境的价值函数得到性能评估结果最后学习模块从实验结果中总结经验迭代优化构思器的想法生成能力这个学习模块的核心是迭代测试时搜索 AI会维护一个想法库

记录所有过去的实验想法和对应的结果当生成新想法时，它会做两件事一是Exploit 结合想法库中高价值想法的优势比如将多个表现好的算法思路融合二是Explore 生成与已有想法完全不同的全新思路避免陷入局部最优实验结果展现了惊人的潜力在数学推理的后训练任务中基准准确率为48.0%，

经过AI自主搜索优化后准确率提升到69.4%，超过了人类专家的68.8%。

这意味着在这个特定任务上 AI已经实现了对人类的超越在预训练任务中基准完成时间为36.9分钟 AI优化后缩短到19.7分钟虽然还没有达到人类专家2.1分钟的顶尖水平但是已经实现了近一半的效率提升杨紫童还分享了一个非常有趣的定性结果

模型生成了一个名为数学工作记忆模拟的想法这个想法提出通过维护一个包含数学事实、定义和中间结果的上下文缓冲区模拟人类在复杂计算中运用工作记忆的过程随着模型解决问题的推进缓冲区会不断更新为后续步骤提供额外上下文更令人惊讶的是模型不仅提出了这个想法

还完整编写了可执行代码定义了MathContextBuffer类包含添加上下文和获取上下文两个核心方法并将它集成到强化学习训练循环中最终这个方法让模型的数学推理准确率提升了10%。

杨紫童坦言他自己也有一个类似的手写笔记本记录着裂项相消、琴生不等式等数学技巧而AI自主提出的这个想法与他的个人经验不谋而合这说明AI已经能产生与人类专家水平相当的原创性思路在答辩的最后杨紫童提出了一个极具深度的观点 AI超越人类是必然的而这种超越并非源于数量堆叠

而是源于算法本身的演化力量他承认当前AI胜过人类的方式其实很无趣人类生成的数据质量更高但是AI的数据是无限的人类研究者的构思能力更强但是AI可以不知疲倦地运行几万次实验但是，这种数量优势只是过渡真正的超越将源于算法的自主演化为了论证这个观点他引用了爱因斯坦的例子

爱因斯坦提出的广义相对论场方程在未经修改的情况下精准预言了宇宙正在膨胀但是在1910年代科学界普遍认为宇宙是静止的爱因斯坦为了迎合这种主流观点在1917年主动修改了方程加入了宇宙学常数让方程预测出静止的宇宙直到1929年埃德温·哈勃通过天文观测证实了宇宙膨胀

爱因斯坦才坦言这次修改是他一生中“最大的错误”。

杨紫童指出，这个例子恰恰说明一个理论一旦被创造出来就拥有了自己的生命力它会演化出超越创造者认知的内涵爱因斯坦的场方程编码了宇宙膨胀的真理即使爱因斯坦本人一开始也无法接受这个事实同样，人类基于算法创造的AI 也可能演化出超越人类认知的智能这种超越不是因为AI是人类能力的子集

而是因为算法的演化过程与爱因斯坦推导场方程的过程类似本质上是对客观规律的探索而客观规律的深度是无限的最后杨紫童用一句话总结了他的研究我们不该问AI能否超越人类因为创造物超越创造者本身就是宇宙演化的常态好了以上就是这场答辩的主要内容了

它不仅提出了解决当前AI发展三大核心痛点的方案给出了严谨的实验支撑更是让我们跳出技术本身去思考人类与AI的关系 AI也许不只是人类发明出来的工具更可能是人类文明自身的延续和演化感谢收看本期视频，我们下期再见

Loading...

Loading video analysis...