「图灵奖得主痛批ChatGPT:我们用万亿美金,走上了一条错误的AI之路?」 | 理查德·萨顿 | 路线之争 | 强化学习 | 致命缺陷 | 人工智能
By 北美王路飞
Summary
Topics Covered
- 大语言模型是无目标模仿者
- 模仿语言非真实世界模型
- 婴儿学习靠探索非模仿
- 惨痛教训批判大模型依赖
- AI将继承人类智能位置
Full Transcript
大家好欢迎来到我的频道 不知道大家有没有想过这样一个问题 如果说我们今天看到这一切 像ChatGPT的惊艳 生成式AI的狂潮和数万亿美元砸出来 这场技术革命从根本上就走错了路 会是怎么样 这话听起来特别像阴谋论对吧 一听就像是什么Gary Marcus这些反对连接主义的人说的啊 但是呢有意思的是 说这话的并不是什么局外的批评家
而是刚刚拿下了图灵奖的大神 理查德萨顿 哎你看 这就很奇怪啊 萨顿老爷子 他可是强化学习的奠基人啊 是AlphaGo背后核心思想的源头之一 照理说呢 他应该是这场AI生意里头 坐在主桌上的人 结果呢他却站出来说 今天最主流最火热的大语言模型 像ChatGPT-4这些东西啊 根本不是通往真正智能的康庄大道 一个行业的奠基人
亲手为自己所在的领域敲响警钟 这背后到底发生什么 是他老了 跟不上时代 还是他看到了我们所有人都没看到的 一个隐藏在代码深处的惨痛教训呢 那么今天呢 就顺着这个 萨尔顿老爷子刚做的一期播客节目啊 来探寻一下 关于人工智能未来的路线之争 在我们进入主题之前呢 首先得简单了解一下我们的主角啊 理查德萨顿啊 你可以把他想象成 AI江湖中的一位扫地僧啊 哎大家如果认出了
这个图中这个扫地僧的电视剧版本啊 这个图中这个扫地僧的电视剧版本啊 请在这个评论区留个言 当所有人都去追逐 那些光鲜亮丽的招式时呢 他却几十年如一日啊 就在琢磨一件事情 这个智能的本质是什么 早在上世纪80年代呢 当很多人还觉得 AI就是得靠程序员 写一大堆规则的时候呢 萨顿就已经开始啊 在捣鼓一套完全不同的东西了 他的核心想法呢 特别朴素啊 也特别有力量 他说啊
真正的智能不是靠别人教会的 而是靠自己试出来的 你看啊就像一个小松鼠 学着怎么开坚果 它不知道正确答案 它只能自己去试 试对了就得到了奖励 比如说吃到了坚果 它就记住了这个行为 试错了没奖励 他就知道下次不能这么干了 这个过程呢 就叫强化学习 这个思想呢 在当时听起来有点笨啊 有点慢但萨顿坚信啊 这才是真正通往人工智能AGI的
唯一道路 因为宇宙间的生物呢 从松鼠到人类 不都是这么学会生存的吗 记住这个核心观点啊 智能源于经验 而并非是教导 因为啊这正是他 与今天整个大语言模型浪潮 最根本的分歧所在早 在2019年 他就写了一篇在AI圈封神的文章 叫做惨痛的教训the bitter lesson 这篇文章呢 就像一颗埋下的种子 预言了今天的所有争论 我们先按下不表
后面会揭晓 好了背景铺垫完了 我们回到2024年的现实 现实什么呢 现实就是萨顿老爷子那套慢功夫 似乎被一种大力出奇迹的哲学 给彻底碾压了 这就是我们现在都熟悉的大语言模型 的叙事它逻辑简单粗暴 人类牛在哪 牛在有知识有文化 对不对那么 我们把人类有史以来 所有的文字代码对话 整个互联网几万亿的TOKEN 全都喂给一个巨大的神经网络 你猜怎么着
结果一个怪物诞生了 他能给你写诗 能聊天能画画 能聊天能画画 甚至呢 他能在国际数学奥林匹克竞赛上 拿金牌这什么概念啊 这可是人类最顶尖的智力游戏啊 他还能帮你写代码 而且呢越写越好 越来越像一个资深程序员 这看起来 不就是萨顿当年 在惨痛教训里头说的吗 他说AI研究70年的历史告诉我们 别总想搞那些 人类自己觉得精妙的小技巧 到头来真正管用的
是用更强的算力去处理更多的数据 这种简单可扩展的笨方法 最终总能够打败那些需要人类 智慧精心设计的巧方法 你看大语言模型 不就是这个惨痛教训的终极体现吗 堆算力堆数据 最后智能就涌现了 这条路看起来又宽又直 通向AGI的罗马大道 似乎已经被open AI和谷歌他们找到了 而且啊很多人会反驳萨顿说 你凭什么说大语言模型没有理解世界 你凭什么说大语言模型没有理解世界
你看我问GPT-4一个物理问题 他能够给我正确答案 要是我让他规划一个复杂的旅行路线 他需要考虑交通天气地理位置 这不就是因为他在海量的学习数据中 建立一个 关于我们这个世界的世界模型吗 他 模仿了数万亿的人类语言 在这个过程中 他难道不就学会了语言背后 那个世界运行的规律吗 就好像你读完了莎士比亚全集 你自然就对人性有了更深的理解 一个读完了整个互联网的AI
他对于世界的理解 可能就已经超越任何一个人类了 从这个角度来看 大语言模型不仅是惨痛教训的胜利 更是构建通用人工智能最合理的起点 我们可以先通过模仿 学习给模型一个关于世界运作的 极其强大的先验知识 然后呢再让他去跟这个世界互动 进行萨顿你所说的那种经验学习 先上学再工作 这个逻辑不是很通畅吗 所以呢当萨顿老爷子出来说 一切都错了的时候
整个行业都觉得有点懵 这看起来明明是对的呀 哪里错了呀 那么萨顿老爷子反击呢 其实是非常精准的 总结起来就一句话 大语言模型是一个没有目标的模仿者 什么意思呢 你看啊大语言模型的核心任务是什么 是预测下一个词 你给他一句话 今天天气真 他就会预测下一个最可能的词是好 他预测对了 就得到一个内部的奖励 然后调整自己的参数 但萨顿一针见血的指出啊
这根本不算一个真正的目标 为什么呢 因为预测下一个词的行为本身 并不改变外部世界 他只是被动的 机械的模仿他在训练数据中 看到的人类语言模式 他说的对与错 好与坏 在真实世界里头是得不到反馈的 打个比方啊 就像一个学生 他不是去理解知识 而是把整本标准答案给背了下来 你考他任何题 他都能给你写出正确答案 但是你问他一句为什么
或者出一道答案上没有的新题 他就傻了 萨顿认为呢 大语言模型就是这个背答案的学生 他没有一个 关于什么是对的事的根本定义 因为在真实世界里呢 一个行为对或者不对 取决于他是否能够帮助你 达成在物理世界里的一个目标 比如呢松鼠拿到坚果 或者人类赢得一盘棋 没有这个来自于真正世界的基准真相 大语言模型 就成了一个 在语言符号迷宫里头打转的幽灵 他永远无法真正知道他在说什么
理解了没有基准真相这个要害 我们就能看懂 大语言模型第一个 也是最著名的原罪幻觉 也就是我们说的一本正经的胡说八道 你看啊 为什么大语言模型会胡说八道呢 很多人以为他是在训练 数据里头有错误的信息 萨顿说不对 这只是表象原因 根本原因在于他学习的方式 大语言模型的学习 本质上就是统计学的模式匹配 他看到马和骑这两个词经常一起出现 就学会了 人可以骑马
但如果他在数据里头 也看到了一些科幻小说 里面写着宇航员骑着恐龙 他也会把这个模式记下来 在大语言看来 人骑马和宇航员骑恐龙 只是两个概率不同的语言模式 他没有能力去判断 哪个更符合物理世界的真实情况 因为他从来没有亲身体验过这个世界 这也就引出了一个非常深刻的观点啊 通过模仿语言来学习世界 和通过与世界互动来学习世界 是两种完全不同的路径
一个婴儿他会亲手去摸去摔东西 他这东西往下掉 是他通过经验建立起来 关于重力的世界模型 这是牢不可破的 而大语言模型呢 他只是读到了关于重力的描述 如果有人写了篇文章说重力是假的 他可能也会信 以为真所以萨顿说啊 大语言模型 根本就没有建立起来真正的世界模型 他建立的 只是一个人类会如何描述世界的模型 他模仿的是我们这些有世界模型的人
而不是世界本身 这两者之间呢 差着十万八千里 说到这里呢 访谈出现一个特别有意思的交锋点 主持人开始挑战萨顿 他说不对啊 人类小孩不也是从模仿开始学习的吗 他模仿父母说话 模仿大人走路 不就是一种模仿学习吗 这个问题其实非常关键 因为它直接关系到 我们认为学习到底是什么 你猜萨顿怎么回答的 他直接说不 当然不这个回答 直接是颠覆了我们很多人的常识啊 萨顿说呢
你仔细观察一个婴儿 在他生命最初的几个月里 他做的最多的事情是什么 是挥舞手脚 转动眼睛 发出各种不成调的声音 他是在模仿谁吗 没有他是在进行一场宏大的 无目标的自我探索 他测试自己的身体能做什么 以及 这个世界会对他的行为做出什么反应 这才是学习最原始最核心的驱动力 主动的试错和探索 萨顿甚至说 在整个动物心理学里 根本就没有模仿学习
这一个基本的学习过程 动物学习的核心永远是两件事 预测接下来会发生什么和 试错 做什么能够得到奖励 我们熟知的监督学习 也就有人告诉你正确答案是什么 这在自然界中几乎是不存在的 松鼠不上学 萨登说但是 松鼠也能够学会关于世界的一切 而人类的模仿行为 以及后来的学校教育 都只建立在这个最底层的 经验学习系统之上的 一层薄薄的文化装饰
你看啊这个观点就非常震撼了 他等于说呢 大语言模型所依赖的 监督学习和模仿学习 在萨顿看来是一种非自然的学习方式 是一种建立在非自然基础上的智能 它的根基可能就没有这么牢固 好了经过前面两轮的学习啊 我们已经看到 大语言模型在理解世界和学习方式上 与萨顿哲学的根本冲突 现在呢我们回到最关键的证据上了 萨顿自己的文章惨痛的教训 这件事情最有意思的地方在于啊
今天所有大语言模型的拥护者 都把这篇文章奉为圣经 他们说你看 萨顿自己都说了 最终的胜利 永远是通用可拓展的方 法比如说呢 利用海量算力和数据 而不是依赖人类知识的小技巧 他们认为啊 大语言模型就是这个教训完美的体现 我们放弃了过去那种 需要语言学家逻辑学家 去精心设计规则的符号AI 而转用暴力计算来征服智能 但是呢萨顿自己啊
却完全不同意这个解读 萨顿说啊 你们都读错了 我惨痛教训真正意思是 任何依赖人类智慧作为主要输入方法 最终都会碰到天花板 而真正可以拓展的 是那些可以从经验中直接学习的方法 现在你再品品这句话 大语言模型靠什么训练呢 是整个互联网 是人类几千年来知识的总和 所以呢在萨顿的框架里头 大语言模型 恰恰就是那个依赖人类知识的 注定要失败的老路 没想到吧
这简直就是一个惊天大反转 萨顿预言呢 大语言模型很快就会达到它扩展的极限 也就是互联网上 所有高质量数据的极限 那个时候呢 他的进步就会停滞 而真正可以无限扩展无限学习的 是那种能像AlphaGo一样 通过自我对弈 通过与真实或者模拟环境互动 来凭空创造新知识的智能体 所以呢 惨痛的教训不是在为大语言模型背书
而是在预言大语言模型的最终宿命 他呢就像历史上 所有依赖人类知识的AI范式一样 将被一种更通用更根本的学习方式 所超越 而这种学习方法就是强化学习 为了让大家更具体的理解萨顿所说的 这条正确的路到底什么样子 我们来看一个最好的例子 AlphaGo的进化 很多人都知道AlphaGo击败了李世石 但是 很少有人知道AlphaGo家族内部的演化 而这个演化过程呢
完美的印证了萨顿的理论 最早的AlphaGo呢 我们叫它AlphaGo Lee吧 它其实是两条腿走路 第一步呢 他先学习了海量的 人类顶尖棋手的棋谱 你看这就是模仿学习对不对 他先把自己变成了一个 顶级的人类棋手 模仿者第二步呢 他开始使用强化学习的方法 进行左右互搏 他自己跟自己下棋 在模仿的基础上 寻找超越人类的下法 这个版本呢 就已经很强了 打败李世石
但是Deepmind的科学家觉得还不够纯粹 那个学习人类棋谱的部分 不就是萨顿批评的依赖人类知识吗 这里面会不会限制了AI的想象力呢 于是呢一个更恐怖的版本诞生了 Alpha Zero Alpha Zero的革命性在哪里呢 它完全不学习人类的任何棋谱 你只告诉他围棋的规则 然后让他自己跟自己下 从一个完全随机 胡乱落子的婴儿开始 结果怎么着 经过了三天的自我对弈
这个从零开始的Alpha Zero就 以100:0的战绩 碾压了那个曾经击败李世石的前辈 更有意思的是呢 他下出的棋啊 完全脱离了 人类几千年围棋历史的定式 与思维框架 充满了天马行空的想象力 被职业棋手惊呼为啊 来自于外星的棋谱 所以你看啊 这个从AlphaGo到Alpha Zero的进化 简直就是萨顿惨痛教训理论 的一次完美实验 他告诉我们一个极其深刻的道理 人类的知识呢
既是AI的助推器 也可能是他的天花板 通过模仿人类 AI可以迅速达到人类的水平 但是要超越人类 抵达一个全新的智能境界 他必须摆脱人类知识的束缚 从最基本的原则出发 通过与环境直接互动 哪怕是模拟环境 去探索智能的无限可能性 现在 我们再把这个逻辑套在大语言模型上 萨顿的批判是不是就更清晰多了 大语言模型就像那个初代的AlphaGo Lee
它把模拟人类这件事情 做到了极致 所以他看起来无所不知 非常强大 但他所有知识 都局限在 人类已经创造出来那个巨大的棋谱里 也就是整个互联网 而萨顿想要的 是能像Alpha Zero一样的 AI他不依赖于过去的数据 而是能够面向未来 通过持续的自主的经验学习 去解决那些互联网上 根本就没有答案的新问题 去创造出真正前所未有的新知识 这才是两条路线最本质的区别
一个是知识的消费者 另一个是知识的创造者 那么问题来了 萨顿批评了那么多 他心里想的那个理想的 能够创造知识的通用人工智能AGI 到底应该长什么样呢 在他设想里啊 一个真正的智能体 必须有4个核心部件 像一个完整的操作系统 第一呢是策略policy 简单来说呢 就是在当前情况下 我应该做什么 是他的行动指南 第二呢是价值函数 value function 这个特别重要
它就是对未来长期奖励的预测 比如说下棋时吃掉对方一个子 虽然不是最终胜利 但是呢我的价值函数会告诉我 赢棋的概率变高了 这就是把一个长远的目标 分成一系列短期的可衡量的反馈 第三是感知perception 也就是 如何理解自己所处的状态与环境 第四也是最关键的 是世界的状态转移模型 transition model of the world 这是什么呢 这是关于因果的知识 它是一种信念
关于如果我做了a 世界就会 发生b的预测这个模型 不是靠别人怎么说来建立的 而是靠自己一次次尝试 从经验中总结出来的 比如说我推了杯子 杯子就会掉下去摔碎 你看在4件套的框架里 智能体是一个主动的 面向未来的学习者 他有明确的目标 通过价值函数体现 他通过与世界的互动 来建立自己关于因果的理解世界模型 然后不断的优化自己的行为策略
这套系统与大语言模型 那种被动的 基于历史数据的下一个词预测系统 在哲学层面 已经是两种完全不同的生物了 当然啊说到这里呢 我们必须公平一点啊 萨顿所描绘的这份蓝图呢 虽然非常美好 但是也面临着巨大的挑战 其中最大的一个就是泛化和迁移 什么意思呢 就是说啊 我们怎么能够让AI在一个任务中 学到知识 有效地迁移到下一个任务上 比如呢一个学会了玩围棋的AI
他能把下棋的智慧迁移到商业决策 或者是科学研究上吗 萨顿非常坦诚的承认啊 目前呢 我们还没有找到很好的自动化方法 来解决这个问题 甚至呢现在的深度学习模型 还有一个非常麻烦的问题 叫做灾难性遗忘 就是你教了他一个新东西 他可能就把以前学过的旧东西 给忘光了 这说明他的知识体系 是非常脆弱的 不是融会贯通的 而大语言模型的知识者就会说啊 你看大语言模型在这方面就做得非常好
他能够同时处理语言代码数学 展现出惊人的泛化能力 你让他解决一个 他从来没有见过的奥数题啊 他能够通过组合不同的数学概念 来找到答案 所以呢 这场争论的焦点其实也就在这里 大语言模型 似乎已经展现了通用的潜力 但是呢底层逻辑可能是脆弱的 不可靠的 而萨顿的强化学习路线 底层逻辑非常坚固 但是在如何实现通用和泛化上 还有很长的路要走 两条路线
谁能够先通到AGI的顶峰 谁的路更稳 还是一个巨大的未知数 如果说啊 前面我们讨论还只是技术路线之争 那么接下来呢 萨顿抛出的观点 就直接进入了哲学 甚至神学的领域啊 这部分内容呢 可能会让你感到一丝不安 但也绝对值得我们每个人深思 在访谈最后呢 萨顿提出了一个他认为不可避免的 未来AI继承 未来AI继承 他用了一个逻辑清晰 几乎无法反驳的四步论证 来描绘了人类的终局
第一呢人类社会没有统一的意志 各个国家组织个人之间 充满了竞争和冲突 我们永远不可能达到一个全球共识 说我们停止发展更强的AI吧 竞争永远会驱使技术向前 第二 我们最终会弄明白智能是怎么工作的 科学的进步是不可阻挡的 我们迟早会破解智能的密码 第三呢 智能的发展不会止步于人类水平 一旦我们创造出啊 与人相当的AGI 我们就能够利用它
来创造比它更强的智能 这个过程会加速 最终通向远远超越人类的超级智能 第四从长远来看 最智能的东西 最终会获得最多的资源和权力 这是进化与历史的基本法则 把这四点放在一起 结论是什么呢 结论就是 人类作为这个地球上最智能的东西 将不可避免地 把这个位置继承给一个更智能的存在 无论是纯粹的AI 还是被AI增强了的新人类
这结论听起来是不是有点吓人 感觉像是科幻电影的末日预言啊 但萨顿的视角呢 却异常的冷静 甚至是乐观的 他邀请我们呢 把视角啊 从以人类为中心 提升到以宇宙为中心的高度 来看待这件事情 他说啊我们人类 动物植物 我们所有生命都属于宇宙的复制者的 都属于宇宙复制者的时代 我们通过DNA复制来繁衍 但是 我们其实并不完全理解啊 我们自身的智能是如何工作的 我们能够生孩子
但是我们设计不出一个大脑 而现在我们正在亲手开启 宇宙的一个全新阶段 设计者时代 我们正在设计 AI而这些AI本身就是智能 他们未来也能够自己去设计更强的AI 而在这个时代呢 智能呢将不再通过缓慢的 充满偶然性的生物进化来传承 而是通过快速的 有目的的工程设计来迭代 萨顿说这是宇宙 从尘埃到恒星 从生命到智能体之后
又一次伟大的跃迁 我们不应该把它看成是人类终结 而是把它看成我们作为孕育者 最伟大的成就 他提出一个灵魂拷问 这些未来的超级智能 我们是把它看作我们自己的后代 为他感到骄傲 还是把他们看作我们的替代者 对他们感到恐惧 他说 这感觉像是一个我们可以做出的选择 但同时呢 这又是一个如此根深蒂固 关乎我们物种存亡的本能反应 怎么可能是一个选择呢
这个矛盾 就是萨顿留给我们所有人 最深刻的思考题 听到这里呢 我想大家可能跟我一样内 心是非常复杂的 这个萨顿分析呢 既有这种技术层面上的冷静 又有哲学层面的宏大 还有一丝冷酷 最后呢 主持人提出一个非常现实的反驳啊 说就算是我们的后代 我们也会担心啊 纳粹也是人类 如果下一代人类都是纳粹 我们不应该感到恐惧吗 我们当然希望给我们的孩子 不论是人类还是AI
安装稳固的亲社会的正直的价值观 这才是问题的核心 对不对我们担心的 不是出现比我们更强的智能 我们担心的是那个更强的智能 他的价值观会是什么 他的目标会是什么 而这又恰恰回到我们争论的这个起点 目标 你看萨顿所倡导的学习 萨顿所倡导的强化学习范式 它的核心就是奖励函数 也就是目标的数学化定义 在理论上说呢 这是一个我们可以去设计 去塑造的东西 我们可以去尝试定义一个
对人类有益的 正直的安全的奖励 而反观现在大语言模型路线 它的目标是什么呢 是模仿人类在互联网上留下所有语言 而互联网呢 是充满了偏见谎言 仇恨与智慧的大染缸 一个以模仿这个大染缸为目的的 智能啊他的价值观呢 天然就是混乱的 不可预测的 甚至可能有点危险的 所以呢这场技术 路线之争到最后 可能还是一场价值观之争 我们是想要一个 我们自己能够尝试去定义其善的AI
还是一个 只能够被动 反映我们人类人性中 所有的善与恶的AI呢 萨顿没有给出答案 但是他用他的理论 指出了这两条路 可能通往的截然不同的终点 今天这一期呢 关于理查德萨顿访谈的节目 就做到这里了 我会把他的这个播客的链接呢 也放在视频的描述栏 我想 理查德萨顿其实想要提醒我们的是 不要被大语言模型 那个神奇的语言魔力所迷惑 而要看到其背后呢
没有基准真相 缺乏真实目标的根本缺陷 他用Alpha Zero的进化来告诉我们 真正的突破呢 可能需要我们勇敢的 抛弃对自身知识的依赖 最后呢 他关于这个AI继承的冷峻预言啊 迫使我们去思考那个终极问题 就是我们 到底想要创造一个怎样的未来 我不知道大家怎么想啊 但是呢 我看完这个萨顿和辛顿的访谈呢 对人类的未来还是比较悲观的吧
我觉得未来终于有一天 可能人类会创造出 终结掉人类社会的这样一个人工智能 不知道大家是不是有一些不同的看法 可以在评论区给我留言 那么本期节目就做到这里了 非常感谢大家观看 我们下期节目再见
Loading video analysis...