Kimi Founder Yang Zhilin: K2, Agentic LLMs, Brains in Vats, and the Beginning of Infinity
By Zhang Xiaojun Podcast
Summary
Topics Covered
- AI研发如无限雪山攀登
- AGI非终点而是方向
- 推理模型靠猜想验证循环
- 测试时扩展解锁复杂任务
- 优化器提升令牌效率翻倍
Full Transcript
好像 一個 魚缸然 後 你 把 一個 腦子 放在 裡面 可能 下一個 突破 邊界 的 確實 就是 你 得 靠 AI
因為 它 是 一個 巨大 的 槓桿過 去年 聽 你 也 是 波風 波谷 來 回震盪 我 覺得 這個 是 很 重要 人類 文明 的 放大器 Hello
大家 好 我 是 小俊
今天 的 嘉賓 是 月 之 案面 的 創始 人 兼 CEO 楊智玲 就 在 一年 前 我們 發布 了 一篇 文章 叫做 《 楊智玲
覆盤 大 模型 創業 這 一年 向 延綿 而 未知 的 雪山 前進 》 那麼 時 隔 一年 我們 再次 對話 Hello 智玲 先給
觀眾 朋友 們 打個 招呼 Hello 大家 好 在 你 創業 第一年 結束 的 時候 2024 年 我們 訪談 報導 的 標題 是
《 向 延綿 而 未知 的 雪山 前進 》 那現 在 又過 了 一年 站 在 現在 此刻 2025 年 7 月份 最新 的 感受 是 什么样
的 你 刚刚 提到 这个 词 我 感觉 都 是 好像 过 了 很 久 已经 一年 多 了 AI 一天 人间 一年 所以 可能
AI 的 一年 我 不 知道 在 人间 是 多少 天 所以 对 感觉 确实 很多 东西 发生 了 很多 变化 但是 我 觉得 那种
感觉 就是 你 刚 说 的 那种 雪山 的 感觉 好像 倒 是 差 不太多 的 对 就是 可能 往 山顶 的 这个 过程 我们 又
再 走 了 一段距离 多远 现在 行进 到 哪里 了 对 你 现在 想 就 确实 模型 的 进步 挺大 的 对 吧 就是 你 可能
比如 两年 前 这个 写 一篇 文章 都 写 不 太 明白 然后 现在 他 不光 可以 写 很 好 的 文章 他 能够 连续 工作
几个 小时 帮 你 完成 一个 可能 很 复杂 的 代码 任务 我 觉得 这个 东西 可能 在 两年 前 是 很 难 想象 所以 我
觉得 可能 就是 在 一个 爬 水山 的 过程 中 吧 然后 呢 你 解锁 了 一些 解锁 了 一些 新 的 这个 场景 就 你 大概 知道
中间 这条 路 是 什么样 的 但 同时 就 在 网上 过程 中 你 可能 还是 观察 到 差不多 的 景象 就是说 接下来 的 这个
网上 的 这个 过程 它 仍然 会 有 很多 未知 的 这种 比如 技术 问题 需要 去 解决 对 就是 所以 我 现在 可能
大概 是 这样 的 感受 吧 更 清晰 了 还是 更 迷惘 了 就是 在 这个 , 四家 都 是 学 的 一个 地方 。
对 , 我 觉得 肯定 会 有 很多 东西 变得 更 清楚 。
对 , 就 比如说 可能 我 觉得 在 两年 之前 , 这个 比如说 各种 强化 学习 的 这种 方式 , 怎么 去 做 ,
让 模型 有 更 强 的 推理 能力 , 或者 有 更 强 的 这种 agen tic 的
能力 。
呃 我 觉得 在 当时 可能 没有 那么 清楚 的 当时 可能 更 多 的 是 说 你 这个 模型 的 预 训练 怎么 能 做 得
更好 然后 呃 当时 还有 可能 RHF 的 技术 能 让 他 的 这个 呃 在 对话 的 体验 里面 做 得 更好 对 但是 现在 我
觉得 会 有 新 的 一些 问题 可能 得到 了 答案 但 同时 这些 新 的 问题 他 又 他 又 展开 可能 又 产生 了 一些 新
的 别的 问题 比如说 可能 我们 今天 看到 呃 虽然 你 可以 做 这些 强化 学习 但是 你 的 强化 学习 可能
最终 还是 依赖于 一个 很 好 的 评估 或者 很 好 的 验证 比如说 你 让 他 去 做 一个 数学题 或者 一些 有
test case 的 编程 那 可能 可以 做 的 比较 好 但是 如果 让 他 去 做 一个 可能 更加 复杂 的 端 道 端 道 任务
有时候 你 并 不 非常容易 找到 这个 评估 或者 衡量 的 方式 所以 我 觉得 现在 的 这个 系统 可能 会
产生 一些 新 问题 就 有点像 我 最近 可能 看一 本书 就是 这个 叫 这个 The Begi nning of Infi
nity 我 其实 看 好几遍 就是 然后 你 发现 他 里面 讲 的 最 重要 的 一个 事情 就是说 他 说 有 两句话
要刻 在 石头 上 一句 话 叫 那个 问题 是 不可避免 的 但是 第二句 话 是 说 问题 是 可以 解决 的 然后 基本上 就是说 你 就
可以 认为 在 可能 启蒙运动 之前 啊 这个 社会 它 是 一个 静态 的 社会 就是 大家 并 不 追求 创新 就是说 你 可能
会 用 很多 神奇 的 方式 去 解释 你 观察 到 的 现象 但 这些 解释 它 可能 是 并 不是 一个 好 的 解释 比如说 你 看到 这个
这个 天上 打雷 你 会 觉得 是 有 雷公 对 吧 然后 你 你 就 看到 这个 冬天 下雪 你 觉得 可能 是因为 某个 神
他 的 心情 不好 所以 下雪 了 就是 你 会 有 很多 这种 就是 不是 不好 的 解释 去 阐述 这些 东西
所以 它 整个 社会 是 个 静态 的 社会 只有 非常 少数 的 人 是 在 真正 做 这个 所谓 的 科学研究 或者说 知识 的 创造
所以 它 其实 会 是 一个 静态 的 结构 但是 如果 是 在 启蒙运动 之后 你 发现 这个 社会 它 变成 动态 的 就是
就是 你 会 有 很多 新 的 知识 被 创造 出来 然后 这个 创造 过程 中 它 就是 会 比如说 你 产生 了 一个 知识
他 就 解决 了 一个 问题 但 解决 这个 问题 的 时候 你 会 产生 新 的 问题 你 的 问题 是因为 不断 因为 你 的 知识
边界 是 在 拓展 那 你 就 会 遇到 很多 新 的 问题 研发 这个 AI 的 过程 中 我 觉得 可能 恰好 就是 一个
这样 的 过程 就是 你 解决 了 比如说 强化 学习 的 很多 问题 但 你 发现 就 面临 着 很多 新 的 问题 比如说 评估 的
刚 我 刚 讲 的 评估 的 这些 问题 或者 衡量 的 问题 验证 的 问题 这些 问题 他 可能 就 我们 需要 一些 新
的 答案 大概 是 会 是 这样 的 一个 过程 但 这个 也 是 非常 有意思 的 一个点 就是 因为 你 一直 会 有 新 的 问题
可以 去 解决 然后 每次 解决 一个 问题 你 的 技术 就是 会往 上 可能 再 攀升 几百米 然后 就是 可能 有
一天 也许 我 知道 有 可能 这个 雪山 它 有 可能 没有 镜头 我 不 知道 我 希望 它 一直 没有 镜头 因为 这样的话
就是 就 所谓 的 begi nning of infi nity 就是 这个 意思 就是 他 可能 是 一座 无限 的 山 就是
你 一直 在 你 一直 在 往上爬 然后 而且 甚至 有 可能 爬 到 一段时间 之后 你 不 一定 是 自己 在 爬 而 有 可能 是
你 用 用 AI 来 爬 对 吧 就是 就 比如说 你 现在 我们 也 会 把 就是 比如 用 K2 这个 模型
去 做 很多 可能 模型 训练 或者说 数据处理 相关 的 工作 这些
东西 他 以前 可能 都 是 要 人工 写 代码 或者 有些 同学 他 不 一定 会 写 代码 那 以前 就 做不了 但是 现在
比如说 很多 数据处理 或者说 模型 的 一些 分析 对 吧 甚至 包括 模型 的 一些 训练 你 慢慢 又 多 可以 用 这个 用 模型
来 做 对 所以 那 你 可能 就是 可以 把 这个 东西 做 为 一个 放大器 具 更好 的 去 判断 这种 生对 所以 呃
我 觉得 会 有 这种 感觉 就是 反正 你 的 问题 是 会 持续 产生 对 然后 你 就 持续 去 解决 然后 发现 有 新 的
问题 那 如果 雪山 是 无尽 的 你 追求 的 是 什么 呢 追求 就是 这个 攀登 的 过程 或者说 你 能 你 能 一直 越
爬越 高 就是 就是 你 可能 原来 是 在 在 山 底下 对 吧 然后 爬 A 到 那个 就是 又 又 又 往 上
提升 了 一点 然后 你 能 看到 的 颜色 会 不 一样 就是 然后 它 是 一个 动态 可能
进化 的 过程 然后 我们 可能 想 追求 的 是 你 就是 越 爬越 高 以前 我们 会 固化 认为 终点 就是 AGI
今天 的 终点 已经 不是 AGI 了 是 吗 那 AGI 是 什么 对 AGI 可能 是 个 方向 就是 它 可能 不是 某
一级 台阶 说 你 爬 到 了 这级 台阶 就 突然 一夜之间 达到 了 AGI
而是 说 可能 它 是 一个 方向
比如说 我们 今天 可能 在 很多 领域 其实 你 也 可能 你 可以 认为 它 是 AGI 就是 因为 它 可能 做 的 比
99% 的 人类 可能 都 更好 对 吧 然后 对 然后 包括 就是 现在 比如 很多 数学题 或者说 编程 竞赛 这些 题
可能 我 觉得 按照 现在 提升 速度 你 可以 可能 预想 就是说 它会 很快 有 很多 问题 就 可以 被 充分 的
解决 对 然后 呃 对 但是 但是 他 可能 很难说 我 我 是 很 良知 说 哎 某 一个 时间 点 我 突然 就是 我 就 我 就 我
就 可以 喊 一个 口号 说 我们 在 这个 时间 前 此时此刻 此时 AGI 他 他 跟 就是 虽然 我们 用 登月 来 命名 公司 的
名字 但 他 跟 登月 有 一个 区别 就是 登月 就是 你 栽埃 月球 那一刻 你 就是 中间 的 对 你 号称 我 就 达到
了 对 但是 可能 AGI 他 就是 你 不 按 做 然后 而且 这 里面 我 觉得 两个 层面
一个 是 说 一方面 是 呃 技术 是 一直 在 提升 对 吧 当然 另一方面 就是 除了 技术 之外 我
觉得 这个 技术 对于 人类 社会 的 影响 它 可能 是 更长 周期 的 事情 对 那 你 也 可以 认为 它 其实 是 AGI
的 一部分 就是 有点像 比如 你 产生 了 产生 了 蒸汽机 之后 你 整个 社会 的 变化 它 其实 是 需要 花 可能 几十几百
年 的 时间 去 消化 就是 你 有 一些 工作 可能 不再 必要 但是 你 会 产生 新 的 工作 然后 有 新 的 方式
可能 人会 用 AI 去 做 更 就是 每个 人 都 会 成为 超人 你 可以 做 更 多 的 事情 那 这个 社会 它 的 工作 方式 和
它 的 运行 效率 可能 都 会 发生 很大 的 变化 那 我们 先 来回 望 一下 过去 年 过去 一年 全球 大 模型 在 脑海中
最 重要 的 几件 事情 是 什么 有 哪些 在 人工智能 范 世纪 的 变化 我 觉得 可能 有 几个 重要 的 一个 是 这种 强 思考 的 推理模型
基于 强 思考 的 强化 学习 对 O1EO1 就是
作为 第一个 做 出来 这样 的 一个
代表 然后 我 觉得 是 本质 上 来讲 是 他 通过 让 模型 在 这个 过程 中去 做 很多 的 尝试 和 反思 然后 我 觉得 可能
反思 是 这 里面 的 重点 就是 反思 其实 本质 上 是 两种 能力 一种 能力 是 提出 来 一个 新 的 猜想 你 可以 认为
就是 模型 在 解决 一个 问题 过程 中 他 会 不断 提出 新 的 猜想 然后 这个 猜想 呢 它会 得到 一个
自我 的 验证 , 比如说 他 提出 这个 猜想 之后 , 我 到底 这个 猜想 是 对 的 还是 错 的 , 它 其实 是 需要 具备
一定 的 验证 能力 , 虽然 你 不是 显示 的 去 那 一个 验证 模型 , 但是 它 是 在 这个 推理 过程 中 可能
隐私 的 去 做 了 验证 然后 你 可以 理解 成就 是 他 把 这个 问题 做 了 很 多次 , 每次 猜想 验证 猜想
验证 , 然后 最后 可能 就 可以 得到 一个 答案 , 对 , 那 这个 东西 就是说 它 其实 会 很大 程度 提升
模型 的 能力 是因为 你 本来 只能 做 一次 你 本来 只能 就是 我 直接 给出 一个 答案 那 这个 答案 可能 是
对 可能 是 错 的 你 并 没有 这个 过程 但是 你 现在 可以 不断 的 提出 猜想 去 验证 那 等于 说 你 其实 等价 的
尝试 了 好 几次 对 , 那 你 就是 可以 把 pass etk 可能 变成 pass et1 在
本质 上 是 一个 这样 的 的 道理 就
就 其实 跟 人 做 科研 或者 解题 的 过程 也 很 像 就是 也 是 不断 提出 新 的 猜想 然后 去 验证 的 它 是 一个 自由
探索 的 过程 它 不是 一个 线性 的 过程 实在 有效 的 工作 方式 实际上 还是 很多 时候 是 比较 线性 的
你 如果 不 考虑 比如说 我 做 并行 的 采样 假设 我 就是 做 串行 的 采样 嗯 它 其实 是 有 线性 体现 在 就是说 你 每次
是 提出 新 的 猜想 这个 猜想 可能 是 基于 你 之前 的 猜想 你 已经 否定 过 的 猜想 然后 你 提出 来 一个 新 的 猜想
但 它 会 接近 更 线性 的 过程 当然 只是 说 现在 你 也 可以 把 这个 线性 的 过程 去 搭配 到 就是 搭配 一些 可能
并行 的 策略 就是 你 可以 比如说 你 同时 采样 很多 个 然后 那 那 那 它 就 会 结合 可能 并行 和 串行 两种
不同 的 方式 但是 最近 也 有 一些 paper 讲 就是说 你 可能 串行 它 的 它 的 上限 是 会 更 高 这个
可能 跟 我们 的 实验 结论 有些 相关 对 所以 这个 这个 我 觉得 是 一种 范式 就是 但 他 还是 一个
就是 刚中 之脑 就是说 他 并不需要 跟 外界 交互 刚中 之脑 对 对 对 他 就是 他 就是 一个 想像 一个
鱼缸 然后 你 把 一个 脑子 放在 里面 然后 他 他 他 跟 这个 外界 是 没有 联系 他 这个 环境 里面 的 对 他
是 只 在 自己 大脑 里面 想 他 就 一直 想 他 他 不 需要 跟 外界 产生 任何 的 交互 他 就 他 就 能解 一道 题 的 但是
有 另外 一个 很 重要 的 方式 就是说 现在 可能 基于 这种 多轮 的 agent
的
强化 学习 的 范式 或者说 你 通过 这种 强化 学习 技术 训练 出来 这种 更 Agen tic 的 这个 模型 那
它 的 特点 就是说 它会 跟 外界 做 很多 交互 比如 可能 我边 思考 边去 做 一些 操作 然后 我 可能 做
很多 轮 的 这个 操作 我 一会 调用 一个 搜索 一会 使用 一下 浏览器 一会 可能 写 这行 代码 然后 我
通过 多轮 的 方式 解决 了 一个 问题 那 它 就 不再 是 公共 智脑 它 是 他 是 他 是 跟 外界 有 交互 的 所以 他
的 就是 我 的 下 一步 行为 是 根据 通过 这个 交互 得到 的 外界 给 我 的 这个 反馈 呃 是 是 呃 外界 给 我
的 这个 新 的 状态 的 更新 是 有 关系 的 对 然后 过程 对 对 对 然后 那 这 两个 东西 他 都 指向 了 同一个 东西
就是 都 是 就是 所谓 的 test time scal ing 就是 就是 你 可以
在 测试 的 时候 或者说 在 推理 的 时候 做做 更好 的 规模化 意思
就是说 比如说 我们 之前 如果 在 做 chat 或 在 做 对话 的 时候 你 更 多 的 是 我 只是 单轮 的 输出
一个 一个 结果 对 吧 我 可能 让 你 写 篇文章 你 就 写 篇文章 然后 我 再 问 你 我 再 让 你 认色 一下 你
又 输出 了 几百个 token 他 他 他 这个 token 数量 是 很少 的 但是 不管 是 刚刚 说 的 这个 基于 强 思考 的 想法
学习 还是 说 这种 agent 的 想法 学习 它 本身 上 都
是 一种 去 规模化 这个 在 预测 的 时候 的 token 的 方式 对 就是 你 不管 是 说
我 把 轮数 打 了 更 多 还是 说 在 每 一轮 里面 我 有 更 多 的 这个 思考 的 token 它 都 是 一种 去 规模化
这个 token 的 方式 使得 说 你 能 去 完成 更 复杂 的 任务 那 这个 也 伴随 着 就是 你 的 完成 时间 会 更长 一个
可能 就是 你 可能 现在 会花 几个 小时 的 时间 比如说 去 去 做 一些 很 复杂 的 事情 在 这个 过程 中 你 可能
不 需要 不 需要 人工 的 参与 对 他 就 可以 比如 把 一个 代码 仓库 克隆 下来 然后 把 它 翻译成 另外
一种 新 的 语言 然后 去 调试 测试 然后 去 把 所有 的 bug 都 修 了 然后 让 它 能 正常 的 运行 就 这样 的 一个
工作 可能 是 可以 端到 端的 去 直接 完成 它 就 得益于 我 觉得 是 这种 测试 时 的 这个 规模化 这 两个 都 是
我 觉得 都 是 test time scal ing 的 表现 方式 吧 对 然后 可能
还有 一个 很 有意思 的 趋势 我 觉得 就是说 可能 现在 会 有 更 多 的 模型
公司 去 做 这种 一方 的 产品 对 就 一方 的 这种 agent 产品 然后 我 觉得 这个 也 很 有意思 因为 一 开始 更 多 的
比如说 我们 如果 看 半年前 开始 的话 或者说 去年 的 吧 就 会 有 很多 产品 它 是 基于 这个 基础 模型
然后 你 在 上面 可能 做 一些 脚手架 或者 去 設計 一些 工具 去 更好 的 讓 模型 去 使用 然後來 搭建 一個 產品
享受 模型 益出 的 能力 對然 後 他 本質 上 在 做 的 一件 事情 就是 說 去 逆向 工程 我 認為 就是 去 逆向
工程 這個 模型 的 訓練 過程 就是 因為 模型 訓練 過程 他 也 是 通過 各種 比如 說 你 可以 認為
Athr opic In - house 的 環境 工具 對 吧 他 的 腳 手架
可能 訓練 出來 的 这样 的 一个 模型 但 他 可能 没有 直接 开放 给 你 那 你 逆向 出来 你
更 接近 去 拟合 他 的 分布 到底 你 用 什么 工具 他 效果 会 好 到底 用 什么样 的 System Prom 效果 会 好 到底
用 什么样 的 Cont ext Engi neer ing 它 的 效果 会 好 是 一个 这样 逆向 的 过程 但是 你
发现 就是说 如果 模型 公司 去 做 一方 的 产品 他 的 逻辑 是 完全 不 一样 的 就是 你 不 需要 你 不 太 需要 这个
逆向 的 过程 它 更 多 是 一个 正向 的 做法 就是 我 现在 先 把 这些 工具 可能 设计 好 我 的 Cont ext Engi
neer ing 的 方法 都 设计 好 然后 我 就 在 这个 环境 里面 去 训练 这个 模型 所以 你 的 模型 天然 在 你 的
环境 里面 就 会 表现 得 更好 对 然后 所以 我 觉得 这个 是 两种 不同 的 思路 但 可能 就是 第二种 它 的 上限
也许 会 更 高 就是 你 可以 更好 的 去 整合 这个 工具 和 整合 这个 模型 然后 你 的 模型 有 可能 也 就 解决
不好 的 地方 你 可以 去 调整 这个 工具 的 设计 你 可以 把 它 设计 的 更好 然后 同时 你 又 可以 端到 端的 去 做 训练
我 觉得 这个 可能 也 是 在 可能 开发方式 上 一个 其实 可能 比较 大 的 变量 就是 我 的 观察 到 这 几个 可能 是
我 感觉 比较 有意思 让 大家 比较 好 理解 其实 你 刚才 说 那个 第一种 脚手架 就 像 Mind ness 这种 方式
然后 第二种 就是 你们 这样 的 就是 端到 端的 运训 模型 对 但 我们 现在 在 一方
产品 上 的 投入 还 不算 特别 多 我们 现在 可能 主要 还是 说 做 很多 还是 以 模型 作为 我们 的 主线
对 但 你 可以 看到 比如 像 Cloud Code 或者 像 Chash GPT Agent 这样 的 东西 它 其实 就是 一方 的 产品
然后 我 觉得 应该 也 会 是 一个 很大 的 趋势 所以 可能 后面 就是 看 这 两种 东西 它会 怎么 去 配合
或者说 它们 在 这个 生态 里面 会 是 在 什么样 的 它们 边界 分别 在 哪里 说 到 主线 你 看 Chash GPT 它 设置
了 L1 到 L5 其实 我 一直 很 好奇 这 里面 的 逻辑 就是 L1 是 Chal lbot 第二个 是 Rese ner 第三个
是 Agent 为什么 有 了 Chal lbot 和 Rese ner 之后 才 有 了 Agent 然后
为什么 后面 又 是 创新者 和 组织者
他们 的 逻辑 是 什么 样子 就是 在 逻辑 模型 上 他 的 变化 是 什么 就是 他 是 这个 能力 一步 一步 的 依赖
当然 就是 现在 我 觉得 实际 看起来 实际 看起来 就是说 你 agent 我 觉得 agent 的 上限 是 取决于
你 有 很 强 的 reas oning 能力 但是 好像 并 不是 说 你
你 必须 比如说 我们 如果 把 这个 技术 发展 稍微 换 一个 顺序 以来 讲 是 你 先 做 出来 的
agent 能力 然后 再 去 做 现在 这个 狭义 上 的 reas oning 就是说 你 做 这种 long COT 的
reas oning 我 觉得 实际上 可能 也 是 成立 的 也 是 成立 的 对 对 对 对 而且 你 可以 认为 可能 Cloud 的 路线
它 就是 bet 在 这 一点 上 就是 我 可能 在 reas oning 上 做 的 并 不是 那么 多 但是 但是 他 可能 在 这个
agent 上会 做 的 非常 好 因为 他 对应 的 是 其实 是 你 技术 背后 是 两种
不同 的 Test Time Scal ing 的 范式 你 一种 Scale 的 是 通过 这种 多轮 的 方式 因为 你 需要 跟
外界 交互 你 使用 很 多次 工具 所以 它 是 这种 多轮 的 交互 你 可以 Scale 这个 轮次 另外 一种 是 Scale
就是 像 我 刚刚 说 的 你 可能 其实 并 没有 什么 交互 你 只是 一直 在 那 思考 纯确 的 思考 它 是 两种 不同 的 我 觉得
是 Scal ing 的 维度 我 觉得 就是说 你 可以 看 就是 可能 比如说 你 看 Cloud 很多 模型 它 的 Reas
oning 的 Perf orma nce 并 不是
非常 高 对 但是 他 的 Azure 上 的 负责 是 很 高 的 让
我 觉得 这 两个 东西 他 他 其实 并不一定 是 依赖 的 关系 但是 但是 有 一点 就是说 如果 你 想 做 最好 的 Azure 就是 想
让 他 几个 最 复杂 的 任务 那 你 最终 可能 是 需要 你 的 理论 能力 很强 对 所以 他 是 这样 的 一个 关系 就 我 觉得 在 研发
上 他 不是 必然 的 顺序 但是 就是 如果 你 想 达到 一个 东西 的 最好 你 需要 另外 把 把 你 你 要 达 了
Agent 最好 你 需要 把 你 也 做到 最好 然后 当 你 有 了 Agent 之后 就是 他 他 就 可以 去 做 一些 为什么
是 对应 接下来 是 Inno vation 就 我 觉得 这 里面 最 关键 的 一个点 就是 你 的 模型 到底 什么 时候 能 参与 到
模型 的 开发 就 比如说 我们 希望 K2 能够 参与 到 K3 的 开发 里面 那 如果 你 没有 这个 Agen tic
能力 你 其实 很难 做到 这个 事情 但 当 你 有 Agen tic 能力 之后 他 就 可以
去 不管 是 说 你 你 提出 一些 新 的 想法 还是 说 去 做 对应 的 实验 然后 去
分析 实验 的 结果 得到 一些 结论 然后 去 迭代 下一版 的 想法 或者 去 优化 一个 某 一个 infra 的 什么
一个 性能 那 这个 东西 它 是 需要 很强 agen tic 的 能力 它 才能 做 对 所以 我 觉得 inno vation 其实
最大 会 产生 在 至少 会 有 一个 很 关键 的 点 就是 看 你 这个 模型 什么 时候 能 参与 到 你 的 你 的 模型 的 本身 的
研发 里面 去 做 迭代 对 然后 但 这个 东西 他 跟 orga niza tion 就是 他 可能 也 我 觉得 也 不 一定 是 完全
线性 的 关系 有 的 东西 其实 也 是 并行 的 就 比如说 现在 这个 组织 这个 东西 他 也 在 对 就是 我 觉得 现在
已经 看到 很多 的 这样 的 趋势 了 就是 当 你 有 一个 agent 之后 你 就 可以 把 它 拓展 成 一个 multi agent
的 系统对 啊 你 可以 从 一个 agent focus 出来 很多 个 不同 的 agent 让
他 去 做 不同 的 事情 然后 他 很多 可以 串新
然后 再 加 冰心 然后 再 合并 起来 然后 再 分成 几个 不同 的 Task 你 可能 有 的 去 写 测试 有 的 去 写 文档
有 的 去 设计 就是 整体 的 这个 软件 的 框架 他 可以 有 不同 的 这个 分工 对 然后 我 觉得 现在 已经 在 有 这样
的 趋势 所以 它 不 一定 是 线性关系 对 就是 你 有 可能 两个 会 一起 发生 但是 它 确实 是 我 觉得 Riso nic
Agent 相当于
说 对 就是 可能 会 是 inno vation 和
orga niza tion 的 一个 前提 吧 我 理解 reas oner 是 agent 的 前提 是因为 它 能够 让 语言 通过 推理 在
agent 中 得以 放话 对 如果说 如果 想 去 解决 一个 可能 最 复杂 的 agent 的 问题 你 肯定 如果 不会 推理 是 很 难
但是 你 假设 没有 推理 的 这种 方式 你 还是 可以 一定 程度 上 做 一些 agent 的 任务 所以 不
需要 推理 的 任务 对 就是 或者 你 不 需要 那么 强 的 推理 能力 你 其实 就 你 不
需要 说 我 在 思考 过程 中 输出 来 几千个 token 去 推理 一下 我 当前 这个 到底 我 应该 怎么 做 你 也 可以 去
通过 多轮 的 交互方式 从 环境 里面 得到 反馈 你 写 一些 测试 然后 去 跑 这个 测试 你 也 能 解决 一些 相对
比较复杂 的 任务 所以 我 觉得 这是 为什么 现在 可能 你 发现 Cloud 的 模型 在 有 一些 场景 它会 做 得 更好
就是 因为 我 觉得 可能 你 是 背后 其实 对应 的 不同 的 技术 的 这个 BAT 但 最终 你 是 绕 不开 就是说 最终 你
要 做到 就是 你 要 往 山顶 再 爬 几步 的话 你 还是 两个 都 要 它 只是 一个 时间 问题 然后 所以 对应
就是 Orga niza tion 和 Inno vation 这 两个 东西 也 是 一样 就是 你 在 这 里面 如果 你 有 不同 的 技术
的 BAT 可能 会 让 你 短期 的
路径 稍微 有些 区别 然后 这些 短期 路径 的 区别 可能 会 有 一些 影响 因为 它 毕竟 你
要 面对 的 是 一个 动态 的 市场 Inno vation 的 标志 是 模型 能 自我 迭代 那 orga niza tion 呢 orga
niza tion 就是 可能 就 比较简单 的 思考 就是 它会 是 一个 multi agent 的 一个 系统 然后 可能 会 从 现在
这个 agent 变成 我 觉得 现在 有 很多 这样 的 雏形 对 然后 当然 就 说 你 multi agent 的
系统 怎么 很 好 的 端到 端的
训练 然后 你 可能 不要 去过 你 和 到 某 几种 对 吧 agent 的 类型 让 它 有 更好 的 放 化性 我 觉得 有 挑战 的
可以 orga niza tion 是 雪山 的 封顶 吗 我 觉得 也 不是 可能 它 真的 就是 没有 顶 就是 这 几个 能力 它
可能 随着 时间 的 发展 它 都 会 持续 的 变得 更好 就 包括 推理 能力 你 说 推理 能力 的 上限 到底 是 在 哪里
我 觉得 今天 也 不好 说 虽然 它 你 看看 起来 是 L2 对
吧 但是 但是 你 真正 说 做到 很强 很
强 的 推理 我 觉得 今天 也 还是 有 很大 的 空间 所以 你 怎么 看 L1 到 L5 的 这个 分歧 你 把 它 当做 一个
什么样 的 刻度 我 觉得 它 是 就是 几个 可能 重要 的 技术 Moun test orm 但是 就是 首先 它 并不一定
完全 是 串行 的 关系 像 我们 刚刚 说 的 我们 会 预期 说 有 一个 东西 它 就 马上 被 解决 掉 然后 你 去 解决 下面 的
问题 它 可能 是 会 你 同时 都 会 再 提升 我 觉得 像 比如说 Reas oning 就是
你 要 去 你 真的 要 解决 一些
开放 的 问题 或者说 你 要 做 很 好 的 创新 你 要 提出 来 新 的 模型 架构 那 你 的 推理 能力 可能 又 需要 有
更 高 的 要求 所以 我 是 觉得 可能 这 几个 能力 要 持续 的 提升 我们 来 复盘 一下 23 到 24 年 你们 的 关键
决策 是 你 当时 2 月份 决定 了 创业 然后 开始 融资 组建 团队 然后 到 了 下半年 KIMI 上线 了 然后
BAT 长 文本 那 24 到 25 年 这 一年 呢 你 的 关键 的 几个
重要 的 决策 是 什么 好 问题 , 我 觉得 很 重要 的 , 可能 技术 上 就是说 你 从 以预 训练 和 比如说
SFT 为 重点 的 这样 的 研发 方式 转变成 就是说 以预 训练 和 强化 学习 为 重点 的 这个 方式 然后 我 觉得
这个 其实 你 就 需要 做 很多 的 不管 是 人才 的 储备 还是 做 研发 方式 的 改变 对 然后 可能 还有 就是说 可能 从
对话 到 agent 我 觉得 是 一个
重要 的 反式 的 改变 然后 这个 东西 它会 影响 我们 的 实际 的 工作
方式 吧 我 觉得 这 两个 是 可能 比较 重要 的 方向 上 的 变化 过去 半年 你们 推出 了 K1.5 和 K2 吗 这个 分别
对于 Kimi 意味着 什么 我 觉得 K1.5 更 多 的 是 可能 是 强化 学习 这个 技术 的 验证 就是 我们
多感 OI 是 吧 对 对 对 我们 可能 是 也 是 比较 早去 在 这个 技术
路线 上去 做 投入 然后 可能 得到 一些 结果 , 看 背后 的 技术 到底 怎么 做 。 当时
。 当时 我们 发现 说 你 可能 不 需要 太多 的 proc ess reward 或者 这种 比如 value func tion 或者
甚至 这种 可能 在 训练 过程 中 还有 一些 副作用 我们 发现 你 可能 直接 用端 到 端的 这个 reward
, 你 可以 把 这个 训练 的 非常 好
我 觉得 这个 在 早期 其实 可能 还是 并 不是 非常 明确 然后 在 这个 过程 中 我们 可能 是 积累 了 一些
强化 学习 的 基建 还有 它 的 这个 一些 算法 的 一些 know howK2 的 主要 的 点 我 觉得 是 几个 一个 是 说 我们
希望 它 是 一个 非常 好 的 基础 模型 希望 它 是 一个 非常 好 的 base model 所以 那 如果 你 想 有 一个 更好 的
base model 我们 就要 去 看 现在 比如说 整个
领域 它 的 预 训练 的 瓶颈 是 在 哪里 然后 我们 发现 就是 因为 你 其实
高质量 数据 的 增长 其实 很 缓慢 然后 多 模态 的 数据 你 又 没有 办法 很 好 的 去 提升 文本 本身 他 那个 智商 你
可以 认为 就是 高质量 数据 他 有点 接近 是 一个 常数 所以 在 这 里面 我们 希望 的 是 说 我们 希望 把
每 一份 的 数据 能够 最大化 的 使用 就 所谓 的 这个 Token Effi ciency 就是
你 希望 说 你
你 同样 吃 下 一样 多 的 数据 你 能 脑子 长得 更 多 就是 你 能 得到 更 多 的 智能 会 跟 之前 有 一些 思路 不太
一样 就是说 比如说 你 现在 假设 你 在 这个 训练 系统 里面 做 很多 的 这个 性能 的 优化 你 让 它 训得 更 快 这个
东西 也 很 有 价值 但是 训得 更 快 本身 它 并 不能 提升 智能 的 上限 因为 你 的 你 的 token 还是
只有 这么 多 你 训得 更 快 你 最后 只是 说 我 在 更 短 的 时间 内 完成 这个 训练 但 它 的
模型 的 效果 并不一定 会 变得 更好 所以 这个 是 所谓 的 训练 效率 或者说 comp uter effi ciency
上 的 优化 这个 可能 之前 有些 人 做 那 我们 现在 更 多 的 是 希望 说 去 提升 它 的 token effi
ciency 就是 把 一份 数据 当成 好几份 来 用 比如说 所以 我们 很 关注 的 像 比如说 Muron 的 优化 器
Muron 优化 器 就是 这个 东西 它 很 有意思 就是 它 对 token effi ciency 的 提升 是 比较 大 你 可以
认为 就是说 像 Adam 这样 的 优化 器 可能 已经 用
了 10 年 然后 大家 一直 都 在 用 所有 美 就是 大部分 的 模型 都 会 用 Adam 来 训练
啊 但是 他 的 特效 性 并 并 不够 好 对 就是 没有 并 不是 把 每个 元素 独立 的 去 考虑 比如说 一个 矩阵 的 参数
他会 就是 考虑 他们 之间 的 depe ndency 然后 通过 这种 方式 你 其实 是 可以 更好 的 呃 有 更好 的
学习 效率 也就是说 你 你 你 学 同样 一份 数据 你 能 得到 更 多 的 智能 比如 在 我们 早期 的 实验 如果 你
是 在 comp ute opti mal 的
情况 下 你 基本上 会 有 一个
两倍 的 提升 对 也就是说 你学 一份 数据 就 等于 别人 学 两份 数据 等于 你 用 adom 学 两份 数据 所以
假设 你 有 30T 的 高质量 的 token 那 你 等价 就是 变成 你 现在 有 60T 的 高质量 的
token 但 他 还是 那么 多 数据 啊 对 对 对 但是 他学 了 之后 他会 他 的 脑子 会长 得 更 快
为什么 呢 对 就 因为 它 的 学习 效率高 因为 你 的 优化 器 更好 , 就是说 它会 , 它 所谓 就是 它会 吸收 的
更 快 就是 你 都 是 为 一样 多 的 数据 但是 它 就 吸收 的 更好 , 所以 你 的 压缩率 会涨 得 更 快 你
的 Loss 会降 得 更 快 。 OK
。 OK 对 这个 是 你 原创 吗 ?
Milu 优化 器 ?
Milu 优化 器是 Keller 提出 来 的 一个 东西 , 我们 在 上面 做 了 很多 的 优化 让 它 能够 在 很
大规模 的 这个 语言 模型 适配 和 训练 , 比如说 呃 我们 之前 其实 有 一个 木赖 的 工作 就是 让
他 能够 第一次 在 有 一定 规模 的 语言 模型 下去 训练 然后 大家 后来 就是说 我们 那个 再 去
进一步 规模化 的 过程 中 我 发现 有 很多 新 的 坑 比如说 啊 你 发现 他 的 max logic 可能 会 有 这个 爆炸 的
这个 问题 这个 只是 在 小规模 时间 上 你 是 很 难 得到 对 但是 你 在 大规模 时间 上 你 可能 会 会 遇到
这样 的 问题 然后 可能 我们 就 提出 来 一些 新 的 比如说 clip ping
的 方式
去 去解 它 让 它 能够 在 一个 非常 大规模 的 情况 下 仍然 能够 很
好 的 去 训练 这个 是 很 重要 的 就是 因为 你 的 token 虽然 有限 所以 你 希望 每 一份 token 能 产生 可能
更大 的 价值 对 然后 包括 就是说 我们 也 会 对 数据 做 很多 的 这种 reph rase 的 操作 就是 因为 高质量
的 数据 你 比如说 你 有 30T token 那时 其实 里面 高质量 数据 可能 更少 对
吧 你 可能 有 几十 币 或者 几百 币 这样 很 高 这样 的 数据 但 你 希望 它 能 很
好 的 使用 对 所以 我们 就是 对 这些 数据 可能 做 了 一些 改写 的 操作 让 它 能够 更好 的 被 模型 吸收 和 有 更好
的 泛化 对 我 读 了 你们 这个 技术 报告 你们 尝试 以有 模型 改写 性 的 数据 生成 新 的 预料 嘛 那
这个 具体 的 改写 过程 是 什么样 的 改写 策略 是 什么样 这个 其实 你 没有 提 如果 你 同 一份 数据 学 很 多次 它 可能
它 可能 泛化 不 一定 那么 好 对 就是 它 可能 会 有 一些 这个 会会 有 一些 故 拟合 的 问题 对 然后 所以 我们
希望 就是说 你 通过 这个 改写 让 它 有 一定 有 一定 程度 的 泛化 改写 有 一定 程度 的 泛化 对 对 对 所以
所以 所以 所以 这个 可能 是 一个 一个 主要 的 思想 反正 具体 改写 的 方式 可能 会 有 非常 多种
就是 我们 可能 找到 一种 就是说 在 时间 里面 它 效果 比较 好 但 我 觉得 这个 空间 也 很大 就是 我
觉得 可以 有 非常 多 的 研究 的 你 怎么 看 那 一种 观点 就是说 改写 和 库 中 其实 没用 能够 写 出来
知识 说明 知识 本身 就 在 里面 没有 新 知识 除非 改写 的 时候 用到 其他 方法 这个 是 一个 很 好 的
问题 就是 可能 确实 跟 你 的 改写 方式 也 有 关系 理论 上 就是 看 你 有没有 新 的 商 的 输入 新 的 商
的 输入 对 对 对 所以 我 觉得 这个 它 对 改写 的 方式 是 有 一些 要求 对 但 我 觉得 我们 今天 也 不 一定 是
就是说 一定 是 最好 的 改写 方式 就是 我 觉得 这 里面 还有 很多 可以 去 探索 的 空间 回到 刚刚 讲 的 点
就是 我们 说 这个 K KL 这个 模型 我 觉得 一方面 是 希望 它 成为 一个 好 的 Base Model 然后 我们 会
很 希望 去 提升 它 的 Token Effi ciency 这些 是 我们 可能 对应 的 设计 包括 就是 去加 更 多 的 这个
通过 更大 的 吸 数度 去加 更 多 的 参数 那 它 的 Token Effi ciency 也 会 更 高 因为 你 参数 多 了 之后 你 虽然
学 一样 多 的 数据 但是 你 你 也 会 吸收 就是 你 会 吸收 的 更好 因为 你 有 更 大 的 这个 反正 你 通过 实验 你
可以 验证 它 确实 有 更好 的 Token Effi ciency 所以 这个 是 很 重要 然后 第二个 就是 我们 希望 它 是 一个
好 的 有 好 的 Agen tic 的 能力 对 讲话 学习 或者说 对于 这个 工具 和 环境 的 模拟 让 它 能 有 比较
好 的 泛化 性 就是 我 是 觉得 对于 对于 一个 Agen tic 模型 来讲 可能 现在 最大 的 挑战 其实 是
在 模型 的 泛化 上 就是 因为 现在 的 Io 技术 我 觉得 它 的
局限性 在于 说 你 的 你 不管 你 的 训练任务 还是 你 的 评价 指标 他
很多 时候 都 是 单点 的 比如说 你 就 训 Swee tbench 他 提升 Swee tbench 然后 就是 我 觉得 他 是 一个
基本上 很 确定 的 东西 但是 但是 你 的 指标 提升 上去 之后 并 不 意味着 你 的 模型 的 范化 会 变得 更好 对
然后 所以 我们 也 尝试 去 可能 解决 一部分 这种 范化 的 问题 吧 就是 就是 我们 不 希望 说 他 过 你 和
到 某 一些 工具 或者 过 你 和 到 某 一些 环境 或者 过 你 和 到 某 一些 具体 的 任务 上 对 但 这些
任务 可能 是 很 好 的 观测 但是 我们 不 希望 去过 你 和 他 而且 这个 问题 可能 在 Agent 的 训练 里面 他
更加 严重 就是 相比 于 可能 之前 的 对话 模型 他 的 好像 他 的 这个 泛化 是 一个 更大 的 挑战 为什么
不 在 Pret cher 里面 去 选 我 觉得 这个 也 是 接下来 我们 想 探索 的 东西 对 就是 你 有 可能 会 有 一些 更
多 的 Agen tic 能力 是 可以 在 预 训练 阶段 去 这 可能
提高 泛化 性 吗 也 取决于 你 的 这个 取决于 你 的 做法 就是 取决于 这个 比如说
你 的 数据 的 分布 是不是 足够 的 广泛 以及 就是 有没有 很 好 的 方法 去 评估 就是 我 认为 现在 整体 的
评估 还是 还会 是 一个 瓶颈 就是 就是 他 是 阻碍 你 的 agent 模型 变得 更加
淡化 的 一个 很 重要 的 瓶颈 所以 你 会 慢慢 观察 到 就是说 你 现在 其实
agent 能用 的 benc hmark 不是 非常 多 然后 你 在 那些 benc hmark 上 如果 观察 到 一个 分数 他 其实 很多
时候 他 并 不是 对 这个 能力 的 反应 他 其实 也 比较 片面 这个 其实 我 觉得 是 可能 大家 要 去 想 办法 解决 的
一个 问题 这 里面 可能 有 一种 陈加 的 似乎 就是说 我们 还是 用 更 AI native 的 方式 去 训练 AI
就是说 可能 我们 希望 让 模型 参与
到 更 多 的 训练 过程 里面 就是 因为 这样 比如说 如果 你 的 AI 能够 做 很 好 的
alig nment rese arch 能够 做 很 好 的 对齐 研究 理论 上 他 可能 会 有 更好 的 范化 你 就 不仅仅 只是 在
优化 一些 单点 的 任务 我 觉得 这个 是 Agent 下 一步 可能 非常 重要 的 一个点 就是 他 今天 可能 还 不 像
对话 一样 有 这么 好 的 范化 性对 这会 是 接下来 可能 雪山 上 的 几百个 台阶 有 可能 是 这个 現在 K1.5
是 跟 著 Open App 跑然 後 K2 是 在 搶 跑 是 嗎 我 覺得 整體 就是 說 肯定 我們 還是 也 是 借
鑒 了 很多 技術 上 的 這個 方向 但是 在 这 里面 我们 也 希望 能 有 一些 自己 的 创新 比如说 至少 我们 可能 是
公开 的 所有 能 看到 的 资料 里面 就是说 第一个 去 使用 这种 非 ADAM 的 或者说 基于 这种 矩阵 阵交化
的 方式 去 做 这个 新 的 优化 器 然后 在 这么 大规模 的 模型 上去 训练 我 觉得 这个 还是 一个 创新 的 地方
然后 包括 可能 我们 一些 agent 数据 的
做法 至少 在 公开课 查 的 资料 里面 也 是 比较 早去 做 的 因为 我 觉得 这个 空间 会
越来越 大 就是 当然 就 很 有意思 就是说 当 你 越 往上爬 的 时候 你 发现 就是 你 的 空间 是 在 变大 首先 它
Token 在 变多 嘛 你 完成 同一个 任务 的 Token 是 在 变多 的 所以 它 的 问题 的 复杂度 是 变得 更 复杂 就 像
刚刚 讲 的 就是 问题 不可避免 但是 问题 总 可以 被 解决 就是说 你 这个 不可避免 的 问题 看起来 会 比 之前 可能 更
多一些 所以 你 的 研究 空间 可能 会 更 大 对 这 是 我 现在 的 一些 直观 的 一个 感受 吧 K2 是 怎么 理想 的
筹备 了 多长时间 了 筹备 可能 比较 长时间 了 这 里面 很多 涉及 到 很多 技术 可能 我们 从 去年 就 开始 在
研究 一个 技术 就 比如说 你 像 Mion Clips 这样 的 技术 它 需要 经过 一个 比较 长
的 周期 你 一 开始 可能 做 一些 非常 早期 的 实验 然后 你 发现 这个 想法 好像 有
一些 潜力 对 吧 就 我们 会 有 一些 小 的 实验 能够 去 验证 这个 想法 的 潜力 到底 有 多 好 你 有 这个
想法 之后 它 其实 到 你 最后 能够 去 把 它 放到 一个 万一 模型 里面 去 训练 它 其实 要 经过 很长 的 周期 你
要 通过 不同 的 scal ing 实验 去 验证 它 的 有效性 然后 像 我 说 的 就是 可能 有 一些 问题 你 只有 当 你
scale 到 一定 的 规模 之后 才 会 发现 所以 整个 东西 这个 周期 其实 是 比较 长
当然 就 如果 你 看 你 只 看 这个 模型 本身 它 的 训练 从 开始 按下 那个 训练 的 按钮 到 结束 那
其实 时间 倒 没有 那么 长 但是 你 整体 的 研发 其实 是 需要 更 潜质 做 很多 事情 才能 最后 保证 你 这个
训练 是 一个 比较顺利 的 过程 Agen tic LL ARM 这个 的 Buds 是 什么 时候 开始 的 也 要 做 很多
的 积累 了 对 就是 可能 像 大家 只是 说 你 不同 时间 点 的 做法 可能 会 不 太 一样 比如说
你 一 开始 可能 并不一定 非常 端 着 端 着 去 做 但是 可能 你 积累 一些 环境 和 数据 但 你 到 后面 可以
更端 着 端 着 去 做 强化 学习 那 你 中间 需要 很多 基建 还有 很多 这个 数据 的 积累 的 过程 但 这个
东西 它 肯定 很难说 你 一两个 月 做 的 非常 好 也 是 需要 时间 积累 的 就 我 整体 觉得 就是 那大
模型 或者 相关 的 这些 技术 它 的 它 是 挺 需要 时间 积累 的 就是 还是 要 做 时间 朋友 吧 就是 你 要
不断 积累 这个 东西 然后 它 是 相对 我 觉得 技术 的 曲线 是 还是 有点 陡峭 的 就 并 不是 说 我 今天 想 做
就 能 把 它 做 出来 这是 什么 时候 立项 的 就 首先 我们 可能 去 积累 这些 技术 然后 一年 前 不是
就是 一年 前 开始 积累 各种 技术 我 觉得 对 然后 但是 你 说 K2 这个 东西 肯定 是 那 就是
最 近几个月 我们 决定 要 去 训 一个 这样 的 模型 然后 把 哪些 技术 用 上来 我 觉得
大概 是 这样 的 一个 决策 但是 你 不是 说 我 今天 想训 这个 模型 OK 然后 我 再 重零去 搞 很多 东西 那
他 可能 就 不是 两三个 月 能 解决 的 问题 为什么 你 这个 这样 当时 是 看 了 什么 我 觉得 也 很 正常 因为 我们 就
一直 训练 下一代 模型 那 你 其实 无非 就是 决策 就是说 我 下一代 模型 到底 是 我 到底 是 要 加入
哪些 哪些 技术 然后 你 期待 他 是 一个 什么样 的 模型 就 跟 现在 我们 也 会 去 考虑 我们 就 K2
之后 下一代
模型 到底 长 什么样 对 吧 这个 是 一个 持续 要 思考 的 决策 的 问题
然后 你 可能 每次 就是 看 现在 你 工具箱 里面 其实 有 多 了 很多 新 的 东西 那 你 到底 要 把 哪些 东西 拿 出来 用
就是 有 一个 这样 的 过程 那 你们 做 研究 和 做 训练 的 团队 是 分开 的 吗 就是 他们 是 一个 什么样 的 过程 就是
因为 一年 前 就 已经 开始 研究 这些 技术 了 嘛 那 到 真实 训练 这是 一个 团队 在 做 这件 事情 吗 对 对
其实 是 一个 团队 在 做 对 就是 因为 因为 这 东西 它 很 难 分开 嘛 就是 比如说 你 在 实际 训练 过程 中
你 会 遇到 这个 问题 如果 你 之前 都 不 了解 你 没有 办法 去 解决 它 所以 实际上 这 两个 并 不会 分开 开度
过程 中有 遇到 什么 挑战 没有 就是 我们 遇到 就是 那个 MIRROR 你 去 训 的 时候 它 就 会
炸 就是 我们 那 我们 那个 都 有 画 一些 图 在 那个 paper 里面 就是说 你 那个 Math ology 就 会长
得 非常 高 然后 就是 我们 认为 这个 东西 对 训练 的 稳定性 有 影响
你 你 你 可能 训久 了 他 很多 这 所谓 的 这个 内科 指标 不 正常 的话 其实 对模型 的 上限 是 有害 的 对 然后
我们 就是说 等 于是 又 回过 头去 revi sit 去 重新 看 这个 问题 然后 去 去 修复 它 因为 这个 东西 是
你 在 小规模 实验 上 没有 办法 预测 的 因为 小规模 上 我们 没法 复现 这个 结果 所以 他 就是
不会 有 这个 爆炸 的 问题 然后 其他 的 基本 还好 因为 其他 的 我们 都 在 小规模 上 做 了 很多 实验
然后 他 基本上 也 是 可以 迁移 的 所以 问题 就 不是 很大 就 唯一 有 这个 是 你 小规模 上 验证 不了 所以 你
需要 在 scale 过程 中 再 去 临续 去 解决 你 在 KR 训练 过程 中 最 重要 的 几个 know how 是 什么 这个 know
how 是 写 在 paper 里 了 就是 我们 都 很 open 的 就是 主要 的 东西 写 在 paper
里面 因为 我们 还是 想
跟 更 多 跟 社区 去 分享 对 我 很 好奇 你 会 怎么 定义 agent 以及 怎么 对 agent team
分类 好 问题 对 就是 其实 像 我 刚 说 的 就是 他 可能 是 一个 就 是从 一个 钢中 资料 变成 可以 跟 世界
交互 因为 所谓 agent 他 其实 就是 最 重要 的 特征 就是 他 可以 去 多轮 的 使用 工具 所以 他 我 觉得 两个
一个 就是 一个 是 多轮 一个 是 工具 多轮 就是 你 能 做 很 多次 这是 一种 test time skat ing
的 方式 然后 工具 就是 其实 你 是 连接 这个 脑 跟 外部 世界 的 一个 方式 比如说 你 用 搜索引擎 那 你 就 可以
把 这个 模型 跟 整个 互联网 连接起来 然后 你 如果 就是 你 可以 写 代码 那 你 就 可以 把 这个 脑 跟 这个 数字 因为
这个 数字 世界 基本 所有 自动化 都 可以 用 代码 描述 那 你 就 可以 让 它 拥有 这种 自动化 的 能力 所以 我
觉得 这 两个 是 我 想象 中 可能 这个 Agent 的 特征 那 你 接下来 就 会 有 越来越 多 的 工具 对 吧 当然 你 会
有 长尾 的 一个 分布 吧 就是 这个 模型 如果 翻画 的 好 的话 它 就 不 只是 使用 一些 常见 的 工具 它 可能
可以 使用 非常 个性化 的 工具 比如说 假设 你 今天 要 有 一个 就是 非常 具体 的 问题 比如说 你 想 让 这个
模型 能够 访问 公司 内部 的 一些 数据库 或者 你 个人 的 一些 文档 然后 能够 甚至 是 访问 一些
这个 定制 的 API 让 它 能 完成 某些 业务 的 操作 比如说 你 退票 啊 或者 就是 去 下 一个 订单 啊 这种 就是 它
应该 是 能够 泛化 到 它 没有 见 过 的 工具 上 对 然后 所以 我 一直 在 想 说 就 我 觉得 agent 现在 可能
最缺 的 其实 是 这种 翻话 的 能力 但 如果 你 有 更好 的 翻话 的话 那 其实 所谓 的 比如说 之前 大家 在 讨论 各种
垂直 的 agent 他 可能 就 不 一定 非常 需要 就是 因为 当 你 你 这个 通用 agent 他 能 去 翻话 到 常委
的 工具 上 那 基本上 你 很多 领域 专有 的 问题 但是 可以 直接 用 这些 工具 去 解决 的 你 只是 每次 给 他加
不同 的 工具 比如 就 像 我 说 的 你 加 你 可能 这个 定制 的 数据库 定制 的 API 定制 的 这些 文档 的 接口
什么 的 你 就 可以 完成 一个 非常 垂直 的 一个 一个 人 对 他 的 这个 啊 我 实际 就会强 很多 然后
多人 主要 是 你 可以 做 test time skat ing 就是 你 可以 做 很 复杂 的 任务 不 只是 只是 做 一次 就 像 对话
模型 一样 我 就 只是 出 出来 一轮 的 但 他 现在 是 可以 做 不同 的 事情 就 跟 人 一样 就是 人 每天 的 工作 其实
就是 你 可以 认他 就是 一个 多轮 使用 工具 的 序列 本质 上 你 是 希望 把 人 的 序列 给 它 拟合 进去 但
你 又 收集 不到 这样 的 数字化 数据 的话 那 你 就 可以 用 强化 学习 来 构造 对 就是 它 本质 上 是 在 模拟 人
的 行为 但 它 也 是 一个 很 通用 的 它 是 一个 对 你 也 不能 说 叫 模拟 人 对 叫 模拟 人 的 行为 可能 不太
准确 就是 因为 它 只是 一个 通用 的 什么 叫 它 是 通用 的 所以 不是 模拟 人人 也 很 通用 對 , 人 也
是 通用 人 是 一個 所謂 的 univ ersal cons truc tor 他 主要 目的 不是 去 模擬 人 他 主要 目的 是 通用
就是 說 他 這個 形式化 就是 這個 定義 本身 它 是 通用 它 可以 完成 幾乎 所有 的 任務 對 所以 這個 可能 才
是 這個 設計 的 目的 就是 說 他 跟 人 的 做法 類似 這 可能 只是 一個 只是 一個 剛好 的 結果並 不是 說
設計 這個 系統 的 目的 就是 數據 飛機 是 為 了 能夠 当做 一个 交通工具 它 并 不是 为了 像 鸟样 能
飞 对 所以 我们 有 这个 agent 的 系统 它 更 多 的 是 通用 gene ral purp ose 的 一个 智能 就是 你
是 跟 这个 目标 对齐 的 但 它 刚好 跟 人 是 一样 相似 的 刚好 跟 人 是 相似 的 怎么 提高 通用性 它 是
什么 方法 没有 对 我 觉得 这 也 是 一个 很难 的 问题 就是 我 觉得 今天 agent 的 范化 有 一个 风险 就是 会
会 陷入 到 可能 有 一些 benc hmark 的 这个 过拟 盒 里面 但是 但是 现在 有 可能 缺少 很 好 的 benc hmark
所以 我 觉得 这个 会 是 接下来 的 挑战 但 我 觉得 可能 有 一些 解法 就是 如果 我 还是 觉得 如果
能用 更 多 的 用 AI 去 训练 AI 那 一定 求得 上 缓解 这个 问题 什么 时候 能 做到 用 AI 训练 AI
现在 的 瓶颈 是 什么 现在 其实 已经 有 一部分 你 是 可以 这样 做 但是 就是 你 希望 他 有 更 多 的 这样 去
做 对 就是 也 现在 很多 还是 要 靠 人 的 设计 你 设计 到 Inno vator 那个 阶段 了 所以 这 很
有意思 就是说 他 其实 有 可能 不是 线性 你 要 用 一些 inno vation 的 方式 去 解决 你 的 agent
问题 对 因为 今天 你 的 agent 算话 不够 所以 你 要 用 inno vation 的 方式 解决 他 就是 你 要 L4 的 技术
去 解决 一个 L3 所以 所以 我 觉得 L1 到 L5 的 定义 有 可能 他 真的 不是 线性 的 对 就是 又 回到 刚刚 说
的 那个 点 就是 你 没有 这个 很 好 的 inno vation 没有 用 AI 去 训练 或者 AI 对齐 AI 的
方式 的话 他 可能 他 可能 这个 agent 他 就是 很难
做到 特别 好 的 方法 比如 你 今天 发现 就是 你 人工 定义 了 一些 task 然后 你 就 fit 那个 task
但是 你 在 别的 你 可能 看不见 的 task 像 他 就 不 可能 也 有 可能 表现 没有 那么 好 然后 但是 你 只 你
只 fit 那些 task 你 就 只 只 刷 那 几个 task 的 分 其实 很多 时候 用户 或者说 你 在
一些 更 ood 的 场景 里面 他 体感 就是 没有 那么 好 我 是 觉得 现在 这个 领域 就是 面临 就是
可能 这个 benc hmark 不够 用 或者 benc hmark
失效
然后 agent 的 泛化 有 问题 这样 的 一个 阶段 为什么
数学 代码 是 相对 容易 泛化 的 领域 其实 也 没有 就是 你 如果 你 如果 做 强化 学习 但 现在 就 还 我 觉得 会
有 一样 的 问题 就是 对于 这些 任务 然后 你 当然 就 说 强化 学习 本身 它 的 泛化 性要 比 比如 做 SFT 要 好
就是 因为 你 在 这 过程 中有 更 多 的 on policy
的 就是 你
从 模型 本身 去 sample 他学 出来 的 东西 sample 现在 看起来 是 更好 泛化 而且 你 有 伏 梯度 就 这 两个 东西 会
导致 从事 小中 证据 上 来看 他 的 泛化 会 好 但是 他 的 泛化 还是 有 限度 的 就 比如说 你 今天 假设 在 某 一种
类型 的 数学 竞赛 上 做到 99 分 那 你 别的 数学 问题 可能 会 提升 五个 点 但是 他 很 难 直接 也 做到
99 分 就是 你 如果 不 不 不 做 对应 的 RL 的 任务 进去 的话 他 就 很 难 很 难 直接 做到 这样 的 一个 分化 性
我 是 觉得 也 仍然 有 一样 的 问题 就是 你 说 做 数学题 他 也 仍然 有 一样 的 问题 就是 他 是 被 分布 所 制约 的
一个 东西 就 所谓 就是说 你 还是 中瓜 得 瓜 中豆 得 豆 但是 我们 希望 就是 我 实际上 就是 我 觉得 整体 的
RL 或者 Post Trai ning 还是 需要 有 更 多 的 AI 来 让 它 能够 摆脱 这种 种瓜 德瓜 这样 的
一个 情况 会 不会 摆脱 不了 会 不会 就是 提高 不了 防怀性 的 就是 还是 回到 刚才 说 的 嘛 就是
问题 是 不可避免 的 问题 是 可以 被 解决 的 所以 就是 你 每次 会 往前 推进 你 犯话 就是 会 变得 更好 它 可能 是 一个 它
不 一定 有 尽头 对 就是 一直 会 有 更好 的 犯话 说 对于 Agent 来说 任务 环境 非常 重要 怎么 定好 的
任务 怎么 定好 的 环境 你 在 探索 的 过程 中 有没有 什么 思考 就 回到 刚才 讲 的
就是说 就是 你 一种 方式 是 说 我 给定 一个 模型 然后 我 就 设计 一些 环境 去 反 逆向 去 拟合 这个 模型
然后 那 你 可以 就是 现在 你 可能 正向 的 设计 假设 你 是 一方 的 做 你 就 正向 的 设计 一些 工具 环境
然后 让 模型 在 这个 环境 里面 去 提升 可能 很多 人 还是 说 让 这个 设计 有 更好 的 通用性 就 他 能 做 很多 的
任务 就是 他 不 应该 是 说 为了 某 一些 任务 去 专门 的 设计 这个 工具 环境 然后 当 你 的 这个 设计
足够 通用 的 时候 然后 你 有 模型 去 在 这个 过程 中去 学而 不是 可能 反过来 去 拟合 这个 模型 我
觉得 这样 可能 会 是 一个 更好 的 做法 我 注意 到 一点 就是 一般 他们 觉得 在 任务 设计 上 你 设计 一个
足够 有 挑战 的 任务 这样 这个 任务 可能 会 做出 有 本质 的 新 的 方法 但是 你们 的 K2 其实 是
用 的 一些 中等 难度 的 人物 这 是 有 什么 思考 吗 这个 会带 人 通用性
吗 会 就是 他 那 他 也 是 一个 爬山 的 过程 就是 你 不能 一 上来 就让 他 去 证明 一个 就是 还 没有 人
证明 过 的 数学 问题 然后 他 可能 这个 sample effi ciency 就 会 非常 非常低 所以 现在 感觉 比较 好
的 方式 就是说 其实 强化 学习 如果 你 搭配 好 的 sample 策略 他 本质 上 是 一个 影视 的 课程 学习 的 机制
希望 他 就 所谓 curr iculum lear ning 就是 你 希望
他 从 合适 难度 开始 学 然后 学完 逐渐 去 提升 它 的 难度 而 不是 你 一
上来 就学 非常 难 因为 那样 的 你 的 你 的 采样 效率 很 低 就 基本上 学 不到 什么 东西 可能 算力 都
会 被 浪费 掉 对 但 这个 挑战 还是 说 今天 的 很多 任务 我 觉得 它 还是 来自 于 比如说 人类 存量 的 数据
或者说 人去 设计 的 一些 任务 而 不是 就 这 里面 可能 AI native 的 部分 还 比较 少 所以 会 带来 刚刚 说 的 泛化
性 的 问题 吧 Coding Agent 和 通用 Agent 是
什么 关系 Coding 可能 是 一个 比较
垂直 的 就 或者说 它 是 一个 子集 然后 你 只要 把 两个 工具 用 得 足够 好 你 就 能 做 大部分 的 事情
最后 还是 希望 说 能够 不光 只是 做 Coding 包括 现在 我们 去 训练 这个 模型 我们 也 不是 说 让 它
只能 做 Coding 因为 它 的 局限 还是 会 有 一些 局限性 Coding 是 相当于 一个 环境 相当于 人类 的
手 对 它 是 任务 的 一个 子集 但 它 可能 是 很 重要 的 一个 子集 所以 這個 相
對 對 於 agent 來 說 比 較 容易 的 任務 是 嗎 比 較 好驗證 所以 比較 好 學習 對 但是 它 還是 會 有 一樣
挑戰 就 比如 說 我 剛講 的 這個 繁華性 的 問題 它 還是 會 我 覺得 即便 是 coding agent 它 也 會 面臨 一樣 的 挑戰然
後 coding 是 很 重要 的 一個 詞題 是 在 於 說 就是 它 代表 了 可能 數字 世界 的 自動化 你 今天 假設 你 想 創建
一個 新 的 工具 因為現 在 很多 agent 它 的 工具 集合 是
一個 固定 的 对 然后 如果 你 想 创建 一个 新 的 工具 他 本身 上 是 写 一段 写写
一段 或者 一大 段 代码 来 实现 或者 如果 你 今天 想 做 更好 的 比如说 上下文 管理 或者 所谓 这些
cont ext engi neer ing 这 东西 他 可能 背后 对应 的 也 是 一个 工具 这个 工具 可能 也 用 代码
来 实现 就是 代码 在 这 里面 他 有 他 有 有 一个 独特 的 位置 独特 的 作用 但是 并 不是 说 你 做 了 coding
agent
就
足够 因为 很多 比如 今天 大家 有 很多 不是 程序员 的 人 他 会 用 clock code 去 做 很多 他
的 任务 你 是 一个 律师 或者 你 是 一个 产品 经理 或者 你 是 一个 设计师 你 也 会 用 clock code 去 做
一些 事情 是因为 你 的 模型 是 一定 程度 上 有 一些 有 一些 泛化 他 不仅 只是 会 写 来 嘛 所以 你们 是 要 做
通用 Agent 模型 并 不是 要 做 一个 coding 的 模型 对 吧
我们 还是 希望 能 就是 做 通用 的 模型 从 写 代码 到 凑合 整个 数字
之间 你 觉得 agent 还 缺乏 什么 能力 啊 一 是 我 觉得 首先 现在 这些 高频 的 工具 使用 也 还 不够 好 能力
上 还有 很大 的 空间 然后 这 一方面 也 是 说 现在 缺少 一些 更好 的 benc hmark 来 观测 吧 就是 你 可能 3ben
ch3 号 现在 也 可能 马上会 有 satu rate 就 会 饱和 然后 有 很多 bench 它
不够 好 不够 真实 的 反应 就是 实际 的
用户 体验 然后 所以 我 觉得 高频 高频 工具 本身 会 有 空间 然后 常委 的 工具 就是 在 一些 可能 你
没有 见过 完全 OFD 的 怎么 有 更好 的 方法 我 觉得 也 是 可能 很 重要 需要 解决 的 问题 你 自己 最 看重 能
提升 agent 能力 这是 哪几个 关键 能力 啊 长期 来看 让 它 的 能力 提升 像 我们 刚刚 说 的 就是 可能
希望 能用 inno vation 这层 的 一些 技术 去 提升 agent 这层
的 能力 所以 希望 我 觉得
这个 可能 是 很 重要 的 一个 方向 Long Cont ext Long Term Amory 重要 吗 Long Cont ext 也 很
重要 就是 因为 现在 就是 因为 很多 任务 你 128K 256K 这种 Cont ext 完全 是 解决不了 你 需要
可能 比如 百万 级别 这样 或者 甚至 更 多 但是 你 又 需要 在 这个 级别 下 你 还 你 的 脑子 还 非常
好用 就是 他 不能 只是 说长 但是 你 可能 脑子 还 得 非常 好用 就是 你 的 你 的 智商 还 得 非常 高 对 所以
这个 对于 模型 的 训练 是 挑战 是 很大 的 就是 你 要 让 它 希望 你 的 压缩率 足够 高 所以 你 的 模型 可能 要 足够 大
然后 同时 你 又 希望 它 也 比较 长 所以 就是 这 两个 东西 它 是 天然 会 存在 一些 冲突 那 你 需要 可能 需要
更好 的 架构 但是 有 一些 架构 可能 你 发现 就是 它 在 更长 的 cont ext 下 可能 效果 会 有 提升 但是 你
短 的 cont ext 有 可能 又 不 一定 会 有 提升 或者 甚至 会 有 下降
所以 就 会 有 很多 这种 可能 架构 上 的 一些 一些 平衡 的 问题 对 但 这些 问题 可能 也 会
接下来 逐渐 被 解决 我 觉得 他 是 有 一些 解法 对 所以 这个 这个 也 很 重要 这个 可能 是 一个 arch itec
ture 上 的 一个 支持 还有 就是 我 觉得 现在 的 RL 训练 方式 肯定 也 会 有
很大 的 提升 空间 吧 比如说 当 你 要 训练 一个 很 复杂 的 multi agent 的 系统 的 时候 那 你 只是
用端 到 端的 reward 可能 就是 不太够 但 中间 的 reward 怎么 产生 是不是 能 摆脱 一些 人工 的
设计 我 觉得 也 會 是 很 有意思 的 挑戰 我 有 一個 回看 我們 去年 對話 我 有 一個 問題 非常
想問 你 就是 你 去年 說 開源會 落 後 於 必源 因為 開源 的 方式 跟 以前 不一樣 以前 所有人 都 可以 貢獻到 開源
因為 開源 本身 是 中心化 的 開源 的 貢獻 很多 沒有 經過 算力驗證 那 必源會 有 人才 聚集 和 資本 秘局 是
一個 對 市場 整合 所以 領先者 不會 開源 只有 落后者 才 会 这么 做 但是 你 今天 看 原谅 对 因为 我们 还
不是 绝对 我们 还 没有 做到 非常 就是 完全 的 领先 嘛 有 一些 判断 上 其实 基本上 是 这样 就是说 你 确实
你 的 模型 出来 之后 就是 这个 社区 它 能 贡献 一些 东西 比如说 你 在 推理 测 可以 做 很多 事情 对
吧 然后 你 可以 让 这个 模型 有 更 多 人 免费 给 你 serve 然后 它 就是 有 更 多 人 去
用 然后 但是 确实 你 要 贡献 到 模型 本身 的 把 这个 模型 本身 变得 更好
好像 还 只 只能 是 你 原厂 自己 来 做 啊 当然 就是说 现在 如果 是 放在 这个 你 如果 他 Base model 是 这样
但是 就是说 你 你 如果 基于 这个 开 模型 去 做 很多 post trai ning 特别 是 agen tic 的 post
trai ning 的话 啊 有 可能 会 有 会 产生 出来 一些 新 的 机会 就 比如说 假设 你 现在 想 非常 想 去 做 一个
就是 比如说 法律 相关 的 这个 agent 然后 你
是 一个 比如说 你 是 个 创业 公司 想 去 做 这个 事情 那
你 完全 可以 GK2 然后 在 你 的 定制 你 的 这个 工具 集合 下面 那么 你 可以 选出 来 一个 spec iali
zed agent 然后 他 在 你 关注 的 场景 下 表现 得 非常 好 我 觉得 存在 这样 的 机会 对 但 他 更 多 的 是 可能 去
赋能 这个 就是 更 多 的 可能 下游 的 应用 就是 你 你 可能 很难说 把 这些 东西 再 变成 说 你 的 主模型 这个
base model 的 提升 这个 可能 还是 目前
还是 很难 我 觉得 大概 是 这样 吧 我 觉得 这个 问题 可能 可以 动态 的 观察 就是
开闭 源 之间 的 关系 你们 会 长期 选 的 开源 吗 我 觉得 这个 是 一个 我们 希望 长期 去 做 的 事情 但 我们 不
一定 是 说 只 做 开源 我们 会 希望 能够 去 跟 社区 去 分享 你 像 你 刚 说 的 技术 的 know how 对 吧 然后 我
觉得 这个 是 可以 去 加速 就是 我们 我们 往 把 把 把 技术 再 往 下去 提升 的 一个 很 重要 的 一个点 就是
大家 可以 不 完全 只是 竞争 就是 你 也 可以 有 一些 合作 或者 甚至 就是说 你 所有 开源 的 公司 它会
形成 一个 生态 就是说 你 能 更好 把 这个 技术 往 下去 推进 就 你 这 雪山 可以 爬 得 更好 然后 rease
to the top 也 不 一定 所有 东西 都 是 开源 比如说 假设 我们 现在 跟 某些 公司 有 一些 合作
就是 它 不 一定 是 说 你 所有 东西 都 要 开 出来 但是 我们 可能 会 希望 能 持续 地去 开放 一些 好 的 技术
所以 这是 一个 技术 体系 的 信仰 还是 说 是 一个 市场 博弈 的 策略 我 觉得 客观 地 说 是 都 有 而且
可能 都 有 好处 但 最终 我们 是 希望 说 能 通过 这个 东西 让 这个 技术 可能 更 安全 更快 的 达到 一个 更好 的
水平 开币源 的 生态 会 怎么 演进 你 觉得 最终 开源 和币源 全球 会 剩下 几家 我 觉得 不会 很多 或者说
整体 来说 但 几家 肯定 还是 会 有 的 我 觉得 整体 来说 其实 你 如果 去 看 过去 两年 我 觉得 这个 趋势
还是 比较 明确 你 还是 这个 市场 会 逐渐 的 更 集中 更 聚焦 对 更 收敛 你 可能 一 开始 有 几百个 到
几十个 到 几个 我 觉得 几个 可能 是 最终 一个 比较稳定 的 数 我 觉得 现在 看起来 是 一个 大 概率 的 事情 你们
属于 开源 那 一边 的 还是 必然 这 一边 的 像 我 刚刚 说 我们 可能 会 持续 的 去 开 但是 并 不是 所有 东西
一定 都 会 完全 的 开 我 觉得 选择 新 的 是 一个 对 吧 这个 很多 可能 我们 要 动态 的 去 观察 对 但是 我们 肯定 是
希望 能够 长期 去 分享 更 多 的 技术 为什么 中国 公司 都 开源 了 嗯 也 不是 兜 自己 也 就 没开 对 我 觉得
客观 的 说 还是 就 像 我 刚刚 讲 的 就是说 你 可能 有 市场 博弈 的 因素 我 觉得 这个 对 社区 来说 是 个 好事 就是说
然后 你 开源 的 可以 互相 借鉴 对 吧 那 你 可以 去 加速 做到 收塔 我 觉得 它 是 一个 很 好 的 方式 去年 你 提到
一个 很多 的 词 是 有 概率 的 非 公式 你 今天 有 概率 的 非 公式 是 什么 好 问题 我 觉得 就是 可能 像 我 刚刚 讲 的
吧 就是 几个 接下来 比较 重要 的 技术 的 店 比如说 怎么 去 提升 Asian 的 繁化 我 还是 觉得 可能 是 一个
非常 重要 的 问题 然后 这 里面 可能 我们 希望 看 能否 在技术上 有 一些 新 的 东西 然后 包括 高 就是
包括 我们 去 做 优化 器 这 东西 我 觉得 在 我们 做 出来 之前 但 我 现在 不 知道 是不是 啊 就是 至少 在 我们 做 出来
之前 因为 没有 人 在 做 这个 东西 所以 它 是 一个 它 也 是 做成 了 一个 非 公司 因为 之前 所有人 都 会
使用 ADAM 所以 我 觉得 这个 也 算是 一个 比较 重要 的 因为 它 对 Token Effi ciency 提升 确实
很大 所以 使得 我们 现在 可以 有 一个 比较 好 的 Base Model 那 这个 Base Model 我们 后面 就
可以 有 更 多 的 Post Trai ning 去 把 它 所有 的 上线 所有 的 性能 去 压榨 出来 我 觉得 这些 其实 都
是 你 怎么 看 AI 时代 的 产品 啊 就是 你 因为 做 KIMI 做 了 很 长时间 嘛 你 觉得 做 比如说 做 AI
时代 的 产品 跟 做 移动 互动 产品 会 有 不
一样 吗 我 只能 说 说 AI 的 产品 啊 因为 移动 互联网 没有 做过 但是 就是 以前 就 很 喜欢
说 模型 级 产品 对 对 对 我 觉得 这个 现在 还是 没有 变化 还是 没有 变化 就是 比如 你 在 假设
你 现在 做 一个 agent 产品 你 在 做 的 时候 其实 需要 把 模型 跟 工具 和 这个 cont ext 去 结合 起来
然后 但是 你 发现 就是 在 训练 模型 的 时候 你 基本上 已经 要 把 这 一套 全部 搭好 你
才 有 办法 训练 这个 模型 所以 当 你 模型 训完 之后 你 的 产品 已经 做 完 了 就是 你 在 上面 做 一些
可能 交互 的 东西 我 觉得 也 肯定 也 有 很大 的 价值 但是 可能 它 是 最后 的 这 井上 添花 的 这 一步 就是 你 的 模型
的 性能 它 已经 在 这个 过程 中 然后 打磨 好 了 然后 跟 这些 工具 和 环境 已经 有 非常 好 的 适配 所以 它 是 它 是 在
训练 之中 完成 的 就是 你 训练 好 了 之后 你 的 产品 就 基本上 已经 做 差不多 因为 你 去年 说 现在 的 开 的 方式 也
变成 你 要 做 一个 巨大 的 系统 就 像 比如说 21 世纪 初 Google 做 的 信息 柬锁 系统 那 你 今天 对于
AI 时代 这个 巨大 的 系统 你 有没有 什么 想象 有 更 多 的 想象 吗 就 像 比如说 以前 的 搜索引擎 系统 和
以前 的 推荐 引擎 系统 但是 它 都 是 适配 于 不同 的 时代 的 我 觉得 现在 的 系统 复杂性 在于 你 想 就 想 让
这个 模型 变成 通用 就是 通用 它会 带来 很多 的 复杂性 你 一方面 可以 认为 它 是 变 简单 了
你 一方面 可以 认为 它变 复杂 就 简单 在于 说 你 只要 把 所有 东西 都 放在 同一个 模型 里 就 你 不 需要
维护 那么 多 模型 你 不 需要 搞 一堆 的 这个 rout ing 的 策略 对 吧 就是 他 从 概念 上 来讲 或者说 有 一些 工程
实现 上 来讲 它 是 变 简单 的 但是 另外 一方面 就是 它 也 会 变得复杂 就是 你 发现 你 如果 希望 它 很 通用 那 你
就 希望 说 这个 模型 在 各种 场景 下 它 都 可以 工作 比如说 你 做 agent 的 模型 你 不 你 不 希望 他 只 在
你 的 工具 级 下 能 工作 你 希望 说 别人 用 你 这个 模型 他 在 别的 工具 级 甚至 你 没有 见 过 的 工具 或者说 工具
不同 的 定义 不同 的 实现 方式 他 都 能 工作 这个 其实 就是 要求 是 很 高 然后 你 可能 比如 agent
里面 他 现在 就 现在 可能 会 有 几种 不同 类型 的 任务 你 不管 是 coding agent search agent
还是 可能 一些 其他
的 就是 你 要 把 它 放在 同一个 通用 模型 里面 那 它 就 可能 会 有 这个 会 有 一些
打架 的 问题 就是 你 可能 也许 你 的 工具 定义 不 一样 或者 你 的 数据 的 patt ern 不 一样 就是 你 把 它
做成 一个 通用 模型 的 过程 它 其实 是 有 很多 的 技术 挑战 但是 如果 你 不 做成 通用 的 模型 它 的 它 的 翻
画性 又 没有 那么 好 你 只能 做 一件 事情 而且 特别 是 现在 就是 因为 你 agent 它 是 需要 很多 步 的 完成
任务 嘛 即便 程序员 它 也 不仅 只是 写 代码 对 吧 然后 或者说 写 代码 里面 它 也 不仅 只是 做 swee tbench 所以 你
当然 就是 你 要 做 很 通用 的 东西 或者说 真正 可用 的 东西 随着 你 的 步数 变多 它 对于 通用性 的 要求 是 会
更 高 我 是 觉得 它 的 系统 复杂性 主要 是 体现 在 说 你 在 训练 这个 模型 的 过程 中 需要 让 它 是 足够 通用 的
不是 说 去 拟合 到 某 一些 单点 的 能力 上 对 你 拟合 到 单点 能力 上 你 可能 会 你 可能 会 benc hmark 分数
看起来 很 好 但是 你 实际上 就是 你 的 通用性 可能 是 不够 对 就是 我 觉得 这个 是 现在 这个 系统 我 自己 能
观察 到 比较 大 挑战 还 包括 有个 例子 就是说 比如 你 想 往 这个 模型 里面 加 多 模态 的 能力 对 那 你 就
需要 让 这个 多 模态 能力 不要 去 损伤 他 的 脑子 对 吧 而且 你 希望 就是 在 多 模态 的 模式 下 跟 你 在 只是
能够 不 损伤 是 吗 对 对 就是 你 能 不 损伤 已经 很 好 了 你 希望 在 多 模态 的 模式 下 跟 你 这个 文本 模式 下
你 希望 他 他 能 共用 一个 脑子 对 吧 就是 他 能 在 多 模态 的 模式 下 也 能 把 他 文本 的 那个 智商 给 激发
出来 而 不是 他 就 进入 另外 另外 一部分 的 参数 那 他 可能 就是 完全 丢到 了 原来 他 文本 里面 学习 的
部分 所以 就是 你 做 一个 通用 的 模型 他 就 会 面临 这样 的 挑战 就是 当 你 有 各种 模态 各种 任务
类型 各种 还有 agent reas oning chat 这些 东西 它 要 全部 合 到 一起 我 觉得 是 存在 这样 的 一个
挑战 然后 而且 你 现在 不光 是 SFT 你 要 做 RLR 的 时候 你 就 可能 这个 挑战 就 会 进一步
的 加重 就是 这个 是 相比 就是说 你 只 做 就是 通用 的 pre - trai ning 是 相对 比较 好 做 的 就是 你
只要 把 所有 的 文本 就是 放 放在 一起 它 基本上 不会 有太多 的 问题 但是 你 越 到 post train 后期 越到
RL 它 的 这个 问题 会 更加 严重 我 觉得 这 是 它 的 系统
复杂性 你 看 搜索引擎 系统 其实 是 构建 在 PC 回忍 网上 的 然后 推荐 引擎 系统 是 构建 在 手机 上
就是 移动 回忍 网上 你 觉得 新 的 节点 在 哪里 这个 时代 AI 时代 有 超级 节点 在 哪里 新 的 系统对
它 肯定 会 跑 在 很多 数据中心 里 所谓 的 Janson 经常 说 的 AI fact ory 但 肯定 还会 有 很多 终端 我 觉得
终端 可能 还是 有 一些 可以 服用 现在 的 有 一些 可能 会 有 新 的 会 带上 新 的 交互 犯是 吗 肯定 会 Chat
是 一种 就是 你 如果 两年 前 看 Chat 是 一种
新 的 因为 之前 可能 没有 说 人 跟 机器
这种 对话 但 现在 可能 agent 它 其实 也 有 很多 新 的 交互方式 就 比如 你 让 它 一步 只是 一个 任务
然后 你 又 可以 看 一些 中间 的 结果 它 其实 也 是 一种 交互方式 但 可能 接下来 会 有 更 多 比如说 当 你 有 一个 multi
agent system 那 它 的 交互方式 会 怎么样 就 可能 你 会 随着 能力 的 边界 去 变化 对 然后 比如说 你 看
coding 这个
东西 Coding 一 开始 你 有 这个 Copi lot 然后 有
Copi lot 之后 有 Curs orCu rsor 之后 有 Cloc kcode 但 你 其实 每 一代 交互 都 会 发生变化 然后 你
发现 这个 交互 它 其实 是 随着 模型 的 变化 而 变化 对 基本上 就 当 你 有 新 的 一代 模型 然后 它 能力
提升 了 很多 你 就 发现 你 的 交互 可以 改 了 就 你 不再 需要 说 我 单个 的 人 去 点 我 要 不要 accept 一个
修改 而是 说 我 可以 去 多步 的 去 执行 一个 agen tic coding 的
任务 所以 你 的 交互 会 发生变化 然后
当然 今天 可能 Clock Code 的 交互 它 也 不是 终极 形态 就是 因为 你 的 模型 还会 提升 提升
之后 它 的 交互 就 会 持续 变化 我 觉得 是 一个 这样 的 过程 今天 Scan ning Law 你 觉得 还 没有 方法
Scan ning Law 对 Scan ning Law 就是 有 数据 墙 我 觉得 这个 肯定 是 一个 客观 的 事实 然后
就是说 那 你 突破 这个 数据 墙 你 就是 要 提高 Token Effi ciency 就 像 我 刚刚 说 的 就是 为什么 我们 会
去 做 提高 Token Effi ciency 的 事情
就是 因为 你 肯定 数据 墙 是 存在 的 然后 呢 你 同时 你 要 scale
更 多 的 comp uter 到 这个 RL 上 各种各样 的 RL 的 任务 上 但 some how 我们 现在 观察 就是
其实 模型 变好 的 速度 并 没有 在 减少 我 觉得 甚至 是 在 加速 为什么 AI 产品 都 还 没有 形成 数据 飞轮
就是 因为 基于 算力 的 scal ing 太强大 了 基于 算力 的 scal ing
太强大 了
就是 我 觉得 这是 一方面 就是说 你 比如说 你 先 scale pre -
trai ning 然后 你 又 scale rlr 的 scal ing 它 的 效率 又 比 pre - trai ning
要 高 很多 因为 他 是 on policy 带伏 提度 的 训练 所以 他 的 他 的 scal ing 的 效果 其实 是 效率 是
更 高 的 所以 当 你 有 很 高 的 scal ing 效率 的 时候 我 觉得 你 发现 你 直接 scale 这个 comp utes
cale 这个 flops 它 带来 的 提升 是 非常 非常 大 所以 你 会 显得 其他 带来 的 提升 很小
这个 是 一方面 另一方面 就是说 所谓 的 数据 飞轮 它 是 很 依赖于 这个 外界 环境 的 feed back 然后
这个 feed back 它 我们 不 希望 它 有 太 多 的 噪声 但 现在 可能 some how 就是 还 没有 完全 说 这个
问题 做 得 非常 好 就是 因为 你 你 噪声 就 大 模型 的 学习 它 对 噪声 是 比较 敏感 它 跟 可能 传统 的 这个 比如说 推荐
系统 有点 有点 不太 一样 它 是 噪声 很 敏感 的 现在 看起来 还是 就是说 基于 这个 flops 的 scal
ing 是 更 有效 当然 说 这个 平衡
什么 时候 会 产生 变化 也 有 可能 就是说 你 通过 新 的 交互 去 让 你 收集 到 的 信号 的 噪声
能够 去 减少 对 对 但是 需要 就是 创造 一种 新 的 交互 对 对 对 但是 你 这个 交互 要 适配 模型 能力 的 发展 你
的 交互 不能 超越 模型 能力 你 应该 在 当学 模型 能力 的 范围 内去 设计 一个 好 的 交互 但是 我 觉得
这个 是 值得 尝试 的 只是 说 今天 可能 我 看来 会 觉得 说 可能 你 去 scale Flops 那个 维度 或者说 提升 它
的 学习 效率 它 还是 更 确定性 更高 而且 看起来 更 有效 的 一个 方法 如果说 像 比如说 严谨 姐说 用户
数据 无法 提供 模式 的 智能 那 好像 今天 就 没有 必要 做 2C 产品 了 我们 就 一门心思 提升 智能 就 好 了
这个 东西 要 看 怎么 看 就是 你 可能 还是 要 有 一定量 就是 你 得 大概 知道 说 这个 我 觉得 这样 就 说 你 可能
没有 办法 直接 去 使用 一些 比如说 用户 的 反馈 直接 拿 去 训练 但是 你 有 一定 的 用户量 的 好处 是 在于
说 你 知道 整体 的 这个 比如说 需求 的 分布 是 什么样 你 大概 知道 就是说 有 哪些 可能 是 用户 用 的 好 哪些 用
的 不好 然后 你 再 把 这个 东西 抽象 成 可能 一些 比如说 Eval uation 然后 去 优化 这个
模型 如果 你 这个 模型 完全 没有 人用 那 你 可能 都 不 知道 往 哪里 去 优化 另外
就是说 也 要 看 你 这个 用户 的 商业价值 对 就是 因为 我 觉得 现在 其实 又 到 了 一个 新 的 分水岭 就是说
你 的 用户 其实 是 有 可能 能 产生 商业价值 比如说 你 就 看 OpayI 他 的 其他 用户 其实 产生 的 商业价值
是 很大 可能 占 了 他 的 这个 应收 的 比较 大 的 比例 对 然后 特别 是 现在 你 可能 有 很多 agent 的
产品 他 能 端 下端 下 产生 很多 价值
所以 你 用户 可能 现在 所以 也 要 看 你 是 什么 用户 如果 普通 的 去 闲聊 问 一下 天气 它 可能 不 一定 说
有 那么 大 商业价值 但 如果 你 是 很多 商业 的 专业 的 用户 那 它 可能 是 已经 本身 就是 一个 很 好 的 生产力
的 价值 可能 这个 事情 它 又 不 完全 一样 了 你 的 产品 有 什么 新 的 想法 没有 我 觉得 更 多 还是 想 模型 怎么 做
因为 我 觉得 像 我 刚刚 讲 的 就是 模型 训好 了 这个 产品 它 就 已经 基本上 做 的 差不多 了 模型 及 产品 所以 我
觉得 它 今天 还是 成立 的 今天 还是 成立 的 就是 我们 还是 会 沿着 这个 方式 一直 在 做 有人 会 说
Kimi 是 要 从 要 做 当然 你 不 认可 你们 是 中国 要 做 中国 的 Open Eye 以前 但是 有 他们 会 这么
看嘛 你们 是 要 从 要 做 中国 的 Open Eye 是不是 要 变成 变成 想 做 中国 的 Auth ropi cal 是 有
这样 的 一个 转换 吗 我 觉得 很难 这样 定义 吧 就是 因为 中美 它 不 太 一样 而且 今天 我们 更 多 的
还是 得 站 在 全球 的 视角 去 思考 这个 问题 我 觉得 做 中国 的 什么 什么 可能 本身 那 不 一定 非常 成立 我
觉得 还是 其实 简单 一点 就是说 我们 希望 还是 还是 继续 爬山 就是 对 我 觉得 就是 爬山 做
时间 的 朋友 然后 跟 comm unity 一起 说 去 加速 技术 的 推进 我 觉得 这是 我们 想
做 的 事情 那 我们 聊聊 商业模式 你 怎么 思考 的 API 是 好生意 吗 我 觉得 现在 就是 明确
商业模式 一个 对 一个 API 一个 是 说 可能 一方 产品 我 觉得 这 两个 可能 我们 也 都 会 去 做 一些 尝试
当然 我 觉得 今天 可能 最 主要 预先 级 还是 继续 把 模型 做 得 更好 我 觉得 这个 还是 可能 首要 目标
但是 你 在 把 这个 模型 做 得 更好 过程 中 对 比如说 你 在 某些 方面 领先 了 那 它 其实 确实 是 有 这个
会 有 这个 商业化 的 空间 因为 我 觉得 今天 整体 的 市场 规模 其实 涨得 也 很快 就是 可能 头部 的
公司 有 几十亿 三百 亿美元 的 这个 AR 而且 是 在 快速增长 对 吧 可能 每 一个 每 一两个 季度 就 能 翻个 两三倍
这样 的 情况 我 觉得 这个 肯定 我们 是 会 动态 去 观察 然后 可能 做 一些 尝试 吧 对 但是 可能 最 主要 还是 说
得 比如说 你 如果 模型 真的 能 做到 比如 OPUS 的 水平 然后 会 甚至 做 得 更好 那 这个 空间 可能 会 更 大
所以 我们 会花 更 多 时间 去 把 效果 做 得 更好 有 你们 用户 说 他们 很 喜欢 KIMI 但是 很 担心 KIMI 赚 不到
钱 怎么办 你们 能 赚 到 钱 吗 对 就是 你 还是 先 投资 然后 我 觉得 能 不能 赚 到 钱 取决于 你 的 模型 效果 做
怎么样 我 现在 觉得 就 因为 我 觉得 这个 市场 它 是 一个 其实 已经 一定 程度 上 被 验证 的 市场 然后 也 在
快速增长 像 我 刚刚 说 的 所以 我 觉得 还是 专注 把 技术 做 得 更好 然后 剩下 的 东西 我 觉得 其实 可能 确定性
反而 是 更 高 的 开火 了 你 心情 有 什么 变化 吗 也 没有 就是 还好 就是说 我 觉得 这个 还是 一个 漫长 的
旅程 就是 你 是 反正 要 持续 做 下一代 的 模型 反而 还是 回到 刚刚 那个 刻 在 石头 上 两句话 就是说
你 会 产生 新 的 问题 然后 就 去 解决 它 然后 这个 是 这个 可能 是 最 有意思 的 部分 这个 创业 旅程 有 什么
意料之外 的 完全 意料之外 的 我 觉得 还好 基本上 所有 的 困难 什么 这些 我们 也 有 预料到 只是 说 具体 是
什么 困难 的 我 觉得 最 有意思 的 点 是 你 永远 不 知道 会 产生 什么 新 的 技术 问题 然后 这些 新 的 技术
问题 会 怎么样 被 解决 我 觉得 这个 是 最 有意思 的 部分 这个 是 你 基本上 很难 预测 如果 能 预测 它 就 不是
那么 创新 对 但 我 觉得 这个 是 最 有意思 的 就是 就是 你 会 永远 遇到 新 的 问题 你 现在 生活 是 什么 样子 的
生活节奏 现在 就是 可能 睡 的 比较 晚 了 今天 啊 都 不 太 一样 的 就是 可能 每天 不 一样 但是 反正 然后 但
也 还好 就是 花 很多 时间 去 看 怎么 把 模型 训练 更好 所以 你 的 时间 主要 投入 在 模型 训练 上 我 觉得 是 吧
对 就是 但 模型 训练 是 个 很 抽象 的 概念 就是说 我 觉得 我 觉得 里面 很 重要 的 一个 是 就是 你 的 技术 一些 技术 的
战略 就是 我 觉得 这个 是 可能 公司 战略 里面 最 重要 的 一部分 就是 你 的 技术 战略 就是 你 现在 下 一步
到底 是 哪些 要 做 哪些 不要 做 因为 这个 技术 空间 很大 那 你 总是 要选 一些 东西 去 重点 去 做 去年 选择 的
是 什么 比如说 我 觉得 我们 在 很多 东西 上 的 bet 还是 有效 而且 比较 早 的 比如说 像 去 做
Long COT 的 Io 我们 是 反应 比较 快 然后 去 做 没有
优化 器 然后 去 做 更 大规模 的 去 练习 然后 去 比如 去 做 这个 做 一个 可能
第一个 open 的 hegi antic 的 模型 我 觉得 这些 可能 都 是 一些 技术 的 bet 然后 或者 技术 的 决策 我
觉得 这个 东西 基本上 会 至少 决定 五六成 的 公司 的 走向 但 你 要 做 很 好 的 决策 还是 需要 很多
证据 支撑 就是 我们 还 得 做 很多 实验 所以 你 得 了解 很多 具体 的 实验 的 结果 就是 到底 这个
东西 是 什么样 那个 怎么样 跟 接下来 可能 会 怎么样 发展 这个 东西 它 你 不能 拍 脑袋 就是 还是 得 得 知道
更 多 的 信息 我 觉得 这 也 是 花 很多 时间 然后 第二个 就是说 可能 具体 的 技术 上 这些 决策 里面 最
纠结 的 是 哪个 花 时间 最长 思考 我 觉得 最 重要 就是说 你 接下来 要 做 什么 不 做 什么 嗯 对 就是 刚才 说
的 那些 决策 里面 其中 哪 一个 是 花 时间 最长 时间 思考 的 也 还好 就 因为 我 觉得 这个 东西 它 关键 是 一个
收集 数据 的 过程 就是 你 做 实验 然后 看 这个 实验 是不是 扎实 然后 通过 这个 东西 结合 就是 你
对 这个 一定 的 技术 理解 然后 去 判断 就是 很多 时候 其实 你 只要 数据 足够 充分 它 的 这个 判断 也
是 比较 显然 的 接下来 呢 接下来 我们 也 在 想 也 在 做 一些 实验 还是 有 很多 东西 可以 做 的 我 觉得
至少 说 现在 K2
的
它 的 性能 潜力 是 还 没有 被 完全 压榨 出来 因为 我们 之前 放 的 我 觉得 更 接近 是 一个 更 接近 是 一个
base model 这样 的 东西 我 觉得 这样 接下来 我们 可以 加 更 多 的 post trai ning 的 flops
就是 我 觉得 它 的 上限 应该 会 比 现在 还会 高 很多 肯定 就是 我们 还会 去 做 下一代 的 模型 下一代 模型
就是 我 觉得 应该 可以 有 再 更 多 的 提升 就是 base model
对 然后
但 这些 具体 怎么 做 我们 现在 也 会 通过 一些 实验 来 决策 也 会加 多么 泰 吧 对 多么 泰 肯定 是 比较 确定 你
刚刚 一直 说 多么 泰 其实 只要 不 干扰 症 就 已经 很 好 了 是 吗 对 它 本身 多么 泰 但 你 多么 泰 能力 也 要 做好
多么 泰 的 能力 本身 要 做好 也 不 容易 嘛 对 就是 里面 有 很多 的 工作 然后 你 怎么 让 它 能够 去 借鉴 这个 文本 的
脑子 而 不是 自己 单开 一个 脑子 就是 比如说 你 MOE 里面 你 expe rts 假设 你 有 20 个
expe rts 他 专门 在 做 多 模态 你 可能 不 希望 这种 情况 出现 这样的话 你 可能 你 可能 学 出来 多 模态 是 个
傻 的 多 模态 对 我们 希望 他 是 个 聪明 的 多 模态 下面 有 什么 重要 的 里程碑 啊 在 基础 上 里程碑 范 华星 杯 比
是 一个 对 对 我 觉得 是 可能 我 觉得 agent 方法 性 可能 是 最 重要 的 最 重要 就是 我 觉得 今天 是 一个 没有
完全 被 解决 的 问题 你们 解决 了 一部分 了 没有 解决 了 一些 对 对 但 读解 我们 写 在 paper 里 了 对 对
对 就是 你 可以 去 尽可能 构造 更 多 的 多样 的 数据 我 觉得 也 不 只是 这个 我 觉得 还是 尽量 可能 避免 说
你 通过 强化 学习 的 方式 但是 你 就 只 拟合 到 了 几个 任务 上 因为 就是 还 像 我 说 的 就是 因为 Benc
hmark 现在 比较 局限 , 所以 你 优化 Benc hmark 它 就 会 导致 说 你 的 Rio 任务 就 会 可能 坍缩 到
几个 单点 上 但 这个 其实 就是 我们 不 希望 , 在 你 没有 观测 的 东西 上 它 可能 就 掉 了 非常 多
。 这个
。 这个 我们 现在 也 在 可能 希望 想 更 多 的 办法 去 解决 。 我
。 我 觉得 这个 会 很 重要 然后 像 刚刚 说 的 这个 Long Cont ext
的
我 觉得 肯定 我们 也 会 继续 看 怎么 做 就是 在 在 他 智商 很 高 的 情况 下 还 能 有 更长 的 cont ext 我 觉得
这个 会 是 一个 也 很 重要 的 问题 就 现在 很 很多 Long Cont ext 的 架构 它 还是 会 影响 你 的 智商 但 我们 不
希望 它 影响 智商 就是 就是 希望 你 什么 Long Cont ext 架构 会 影响 智商 比如说 你 如果 做
Linear Atte ntion 你 纯粹 的 Linear Atte ntion 你 可能 它 就是 会 影响 智商 因为 这个 架构 会 有 一些
Bias 这个 Bias 可能 在 一些 场景
下 效果 没有 那么 好 但 这个 是 一定 程度 上 也 可以 被 解决 的 问题 模型 公司 和 做
agent 产品 的 公司 长期 来看 他们 的 关系 和 边界 是 在 哪里 这个 问题 我 也 没有 明确 的 答案 就 只能 说 今天
看起来 就是 一方 的 产品 有个 好处 就是 它 可以 做 垂直 的 整合 因为 我 可以 把 模型 放在 这 里面 训练
所以 我 的 模型 跟 工具 它 是 融为一体 它 不是 说 分开 来 做 然后 再 去 逆向 工程 但是 因为 有 非常 多 的 agent
的 空间 就是 我 感觉 一方 产品 不 一定
做 得 过来 所以 有 可能 是 如果 能 找到 一些 空间 比如说 你 这个 工具 的 实现 它 是 需要
非常 多 的 领域 的 know how 或者说 你 的 eval uation 是 可能 一方 产品 根本 不会 考虑 的 东西
考虑 不 过来 的 东西 那 我 觉得 是 有 机会 我 觉得 有 像 K2 这样 的 开源 的 模型 然后 就是说 大家 可以 在
上面 去 微调 那 你 更 容易 产生 出来 就是 也 有 一些 可能 这种 spec iali zed agent
垂直 agent 的 可能性 我 觉得 这个 可能性 还是 还是 一定 程度 上 可能 会 存在 了 那 要 看 你 通用
模型 能 通用 到 多 大程度 了 对 但是 你 不管 多 通用 就是说 你 总 还是 有 一些 工具 你 要 做 所以 你 有 可能
你 也 不 一定 是 要 去 做 那个 模型 而是 说 你 把 这个 工具 做 得 非常 好 然后 但 这个 工具 你 如果 是 做 得
太 通用 你 可能 就 会 就是 跟 一方 的 这个 产品 会 over lap 到 极会
比较 大 嗯 那 这个 就是 可能 你 还是 做 垂直
整合 优势 更大 但是 如果 你 这个 工具 是 一个 我 就是 专门 针对 一个 东西 去 做 然后 甚至 我 这个
工具 是 别人 做不了 的 比如说 我 我 今天 如果 掌握 了 一些 线下 服务 的 入口 那 我 这个 工具 就是 我
这个 下 订单 或者 成交 这个 工具 是 别人 根本 做 不 出来 的 那 你 有 可能 是 能 产生 一些 独特 的 价值
当然 我 觉得 也 存在 另外 一种 可能性 就是说 当 你 这个 一方 产品 或者说 你 这个 通用 的 agent 它 的
流量 或者 商业模式 足够 成熟 之后 你 很多 这种 专有 的 本来 垄断 的 工具 他 也 会 愿意 去 接入 进来
因为 他 的 整体 的 商业化 效率 会 更 高 对 但 商业化 效率 的 提升 我 觉得 是 需要 一些 时间 的 对 所以 那 在
这个 时间 窗口 内 你 可能 其实 专有 的 agent 也 会
有 空间 对 但 我 觉得 最终 通用 的
通用 它 为什么 通用 能 工作 是因为 它 整体 的 商业化 效率 会 更 高 所以 今天 甚至 包括 我 觉得 很多
内容 平台 你 最终 有 可能 你 把 内容 接到 通用 agent 里面 你 的 商业化 效率 是 会 比 今天 更高 这个 是
有 可能 但 它 可能 要花 很 长时间 像 Minus 这种 公司 或是 你 的 客户 还是 你 的 经营 对手 在
生态 上 来说 我 觉得 还 很 早期 你 很 难 判断 它 到底 有 怎么样 而且 可能 这个 产品 本身 也
会 演进 对 所以 我 觉得 短期内 它 可能 更 多 的 会 是 这种 合作 的 关系 是 可能 是 大于 竞争 的 但是 未来 它
确实 会 演进 , 所以 像 比如说 就 有点像 Cloud 和 Cursor 的 关系 那 Cursor 它 可能 要 动态 的 变化 它
可能 也 得 在 产品 策略 上 有些 动态 的 调整 , 所以 它 可能 就 需要 去 , 一方面 是 说 能 不能 有 一些 模型 的
能力 , 我 的 技术 研发 的 曲线 还是 很 陡峭 的 , 另一方面 就是说 它 能 不能 有 一些 就是 比如 别人 做
不到 的 工具 或者 环境 就是 但 这个 我 觉得 都 是 一些 现在 没有 办法 直接 回答 的 问题 吧 但 只能 说 现在
看起来 就 我 觉得 一方 的 这个 整合 优势 是 应该 是 存在 的 嗯 你 形容 K2 是
哪个 风 哪个 山峰 对 K2 本来 就是 一个 可能 是 世界 上
最难 判断 的 山峰 刚好 这个 名字 有点 重合 这 是 你 故意 选 的 这个 名字 吗 对 但 他 刚好 也 是 刚好 也
是 K2 就是 对 就是 我 但 我们 也 希望 说 那个 首先 他 不是 终点 对 吧 就是 因为 他 不是 最高 的 山峰 对 他 第二个
他 可能 是 最难 的 因为 我 觉得 就是说 你 你 可能 因为 现在 有 很多 范式 的 转变 你 可能 从 对话 到 这个 agent
然后 可能 你 的 base model 的 scale 也 进一步 变 大 就是 它 本身 它 肯定 存在 难度 那 就是
所以 就 刚好 反正 跟 这个 好像 有点 关联 这 结果 超出 你 预期 了 差不多 吧 反正 就 因为 基本上 你 这个 模型
训了 怎么样 其实 在 过程 中 就 已经 知道 了 就是 他 并 不会 说 好像 有 一些 惊喜 或者 惊讶 过程 中有 你 的
aha moment
吗
也 还好 因为 很多 东西 它 是 可以 被 预测 的 就是 因为 我 觉得 更 重要 的 是 这个 预测 的 能力 因为 就是 这个 你
虚拟式 模型 一是 需要 周期 二是 需要 有 成本 所以 我们 希望 在 早期 尽可能 多 的 就是 把 所有 能
预测 的 都 预测 到 唯一 的 那个 没有 预测 到 的 就是 刚刚 说 的 那个 Max Logic 的 问题 但 那个 确实 没 办法 就是
因为 你 小规模 它 是 预测 不了 对 其他 的 我 觉得 都 是 我们 希望 尽可能 把 它 预测 好 所以 你 所有 的 东西 都
是 在 都 是 验证 清楚 的 情况 下 然后 再 scale 那 你 其实 scale 的 成功率 是 比较 高 的 你 怎么 看
张向宇 说 那个 Nest Token Pred iction 的 本质 缺陷 你 得到 这个 吗 我 不 太 理解 他 的 意思 是 说 随着 模型
规模 扩大 推化 能力 知识 量 和 情商 都 在 变强 但是 推理 能力 尤其 数据 的 表现 是 先上 身后
平缓 然后 再 扩大 反而 下降 所以 他 觉得 就是 用 更 大 的 模型 比如说 做 数据 问题 倾向 于 跳步 不 老实 他
觉得 这个 是 Nest Token Pred iction 的 本质 缺陷 对 但是 你 可以 对 所以 要 搭配 可能 超化 学习 的 scal
ing 我 觉得 就是 确实 如果 你 今天 不 做 强化 学习 他 的 这个 模型 他 很难说 很 聪明 或者 像 数学题 这种 他 不 一定
做 的 非常 好 就是 但 确实 我 觉得 更大 的 base 他 的 强化 学习 的 上限 还是 会 更 高 对 对 就是 因为
因为 他 的 知识 更 多 就是 本质 上 是 说 去 激活 一个 推理 的 范式 让 他 能 把 那个 知识 解锁 出来 然后 把
那个 对 就是 它 上线 会 更 高 , 但是 你 要 搭配 一个 RLG 机构 。
世界 模型 怎么 看 ? 有种
? 有种 说法 是 说 , 做 世界 模型 是 造 世界 做 Agent 是 造人 。 所以
。 所以 最后 , 像 我 刚刚 说 的 , 用 AI 训练 AIA 有点 这个 意思 , 就是 你 有 一个 很 好
的 世界 模型 , 你 就 模拟 这些 东西 , 就是 用 AI 训练 AI 的 方式 它 的 泛化 就 好像 很多
就是 我 觉得 这个 有 可能 是 去 通往 更好 的 泛化 的 一种 可能性 你 的 一个 投资人 说 第一次 见 你 的 时候
你 就 开始 讲 GPT10 可能 长 什么样 你 现在 觉得 GPT10 长 什么样 还会 有 GPT10 吗 我 待 会 说 了 什么
就是 它 对 你 印象 很深 的 原因 就是 因为 你 第一次 见 它 你 就 开始 说 你 说 的 不是 GPT4 GP5 长 什么
样子 你 说 的 是 GPT10 长 什么样 我 不 知道 它 已经 说 的 什么 OK 所以 它 对 你 印象 深 OKOK
对 我
觉得 但 其实 我 觉得 我们 今天 其实 已经 好像 实现 了 之前
预想 了 很多 东西 比如说 比如说 你 真的 能 完成 几个 小时 的 这种 任务 觉得 这个 发展 还是 很快 的
然后 但 我 觉得 整体 就是 你 就是 逐渐 见 更 多 的 就是 逐渐 见 更 多 的 eval uation 然后 去
突破 这个 繁化 的 过程 其实 我 倒 是 觉得 这个
好像 相对来说 还是 比较 明确 的 现 Eval uation 上面 你们 有 获得 什么 认知 没有 我们 也
在 探索 嘛 就是 你 刚刚 说 的 世界 模型 你 可以 认为 它 是 这 里面 的 一部分 对 就是 但是 怎么 实现 我 觉得
现在 还 还 需要 更 多 的 实验 嘛 对 对 过去 年 对 组织 有 新 的 想法 没有 新 的 思考 没有 好 问题 我 觉得 现在
就是 最近 在 想 一个 事情 就是说 有 嗯 有 几个 东西 它 好像 有点 联系 在 一起 就是 如果 你 看 我们 去 做
科研 或者说 创造 新 知识 的 过程 它 很 像 一个 强化 学习 的 过程 就是说 有 一种 理论 是 说 叫 经验主义 说 能
得到 新 的 知识 是从 经验 来 的 然后 后来 大家 有 很多 观点 就是 认为 不是 这样 就是 其实 人类 在
这个 地球 上 已经 存在 非常 非常 多年 了 但是 可能 你 三四百年 之前 没有 任何人 说 其实 地球 是 个 球
就是 一直 在 这个 经验 里 但是 你 并不知道 事实 是 什么样 所以 经验 并 不能 直接 给 你 这个 知识 而是 你 提出 了
这个 猜想 就是说 你 观察 到 一些 东西 但 你 提出 猜想 说 我 认为 这个 球 可能 是 原 的 然后 我 想 各种 办法 去 验证 它
包括 现在 训练 这个 神经网络 你 可能 观察 到 你 几十万个 内科 指标 你 观察 到 有些 内科 指标 可能
不太对 那 你 直接 观测 你 并 不能 给 你 新 的 支持 你 只是 说 我 提出 来 一个 猜想 他 为什么 会 这样 然后 我 再 设计
一些 实验 去 验证 他 所以 这个 是 现在 可能 我们 觉得 比较 好 的 当然 就是 可能 所有 好 的 科研 的 方式
都 是 这样 但 这 几个 东西 好像 三 方式 相通 的 就是说 因为 你 发现 就是 你 好像 管理 一个 团队 他 也 是
这样 的 方法 就是 你 是 要 用 RL 的 方式
去 管理 对 但 这个 是 Tim 天天 跟 我 讲 的 就是说
他 觉得 要 用 这个 IO 的 方式 去 管理 而 不是 用 SFT 对 当然 现在 你 发现 好 的 技术 你 说 你 做 IO 的 时候 你
其实 也 希望 加 一部分 SFT 因为 SFT 是 很 好 的 鲜艳 就是 所谓 的 PTX loss 然后 你 不 希望 这个
模型 可能 飞太远 对 但是 你 又 要 管住 自己 的 手 就是说 你 不能 SFT
太多
SFT 太多 你 的 这些 同学 他 就 会 失去 主观 能动性 然后 就 没有 办法 创新 了 这个 点 现在 反正 我 也 在
做 一些 实践 嘛 就是 好像 看起来 有 一些 效果 然后 但是 核心 是 掌握 SFT 和 RL 的 平衡 SFT 就是 你
是 直接 给 他 就是说 这个 东西 应该 这样 这样 这样 这样 做 然后 RL 就是说 你 给 他 一个 从 上
而 下 RL 就是 给 他 一个 奖励 就是说 如果 做成 这样 那 他 可能 是 好 的 那 可能 更
多 时候 他 是 反映 在 目标 上 然后 就 我 觉得 这 两个 东西 它 可能 需要 一些 平衡 然后 可能
比如说 以 RL 为主 对 就是 然后 通过 一部分 SFT 去 防止 它 就 是非 太远 你 还是 要 有 一些 鲜艳 去 控制
或者 防止 它 遗忘 掉 一些 东西 我 觉得 这些 好像 某种程度 都 是 连接 在 一起 就是 RL 好像 是
一个 很 本质 的 东西 就是 好像 你 的 组织 在 做 创新 那 本质 上 也 是 一个 RL 但 这个 其实 就是说 你 在
RL 过程 中 你 定
这个 奖励 或者 定 这个 指标 它 并 不是 非常简单 的 一个 事情 比如说 如果 你 只是 最后 说
我 就是 要 把 所有 的 benc hmark 做 得 很 高 那 你 可能 就 会 出现 很多 over fitt ing 的 问题 对 吧
就是 因为 你 所有人 都 会 不择手段 的 把 那个 分子 给 弄 上去 但是 弄完 之后 你 发现 这个 模型 好像 还
并 没有 变 好 就是 有 可能 会 出现 这样 的 问题 所以 这个 奖励 的 定义 就 很 重要 对 或者说 这个 奖励 的
定义 也 需要 你 很 了解 这个 具体 的 细节 是 怎么 运作 的 不然的话 就 它 就 会 出现 reward hack ing 什么
第一 reward 的 这个 是 一个 很 重要 的 课题 有 什么 想法 呗 就 还是 你 建立 更 多 观测 指标 然后 尽可能
不要 去过 拟 对 所以 就是 就是 我 觉得 是 一定 程度 有效 就 这样 你 才 有 更好 的 方法 然后 不会 被 不会 被
hack 对 就是 用 RL 管理 团队 的 方式 最大 问题 就是 你 容易 被 hack 就是 你 hack 的 那个 reward 然后
大家 看起来 都 各种 那个 好像 结果 都 很 好 但是 实际上 并 没有 达到 你 最终 想要 的 就 这个 是 他 的 风险
然后 你 用 SFT 管理 团队 的 风险 就是 就是 就是 大家 失去 创造力 对 所以 最后 你 是 这 几个
东西 他 一定 程度 的 这个 bala nce 但 这个 我 也 在 学习 我 觉得 今天 肯定 不是 说 做到 很
很 完美 的 情况 但是 可能 可能 也 也 要 逐渐 去 学习 和 和 能 理解 这个 事情 吗 你 过去 你 有
很 低落 的 时刻 吗 我 觉得 还好 就是 更 多 就 有些 东西 会 work 有些 东西 不 work 会 有 解决 一些
问题 会 有 新 的 问题 产生 就 像 刚刚 说 的 所以 我 觉得 就是 不断 在 这个 过程 中 我 觉得 只要 你 觉得 这个
东西 是 有意思 的 你 就 一直 想 去 做 下去 你 对 CEO 这个 项目 有没有 新 的 理解 我 现在 最新 的 理解
就是 它 怎么 去 把握 这个 IL 和 SFT 还有 Rail Hack ing 之间
的 平衡 就是 对
我 觉得 这个 可能 很 重要 就是 其实 过去 年 听 你 也 是 播风播 谷 来回 震荡 你 在 这个 其中 你 的 心态 是
什么样 的 你 需要 平衡 自己 的 心态 吗 心态 就是 反正 做 时间 的 朋友 吧 真实 人 的 心态 不会 这么 简单 的
我 觉得 就是 你 会 有 高点 和 低点 像 你 刚刚 说 的 对 吧 然后 我 觉得 可能 很 重要 的 就是 还是 说 你 就 喜欢 做
这个 事情 然后 想 把 它 做好 所以 你 也 不用 想 别的 东西 你 就 想 怎么 把 它 做好 所以 好像 也 比较简单 我 觉得
没有 什么 特别 复杂 的 就是 很多很多 复杂性 都 是 人为 强行 加上 去 的 实际上 并 没有 那么 复杂 但
你 对 人性 有 多 的 理解 呢 我 觉得 这个 东西 也 还是 需要 时间 的 打磨 吧 我 觉得 就是 我 觉得 不敢 说 有 那么
深入 你 只能 说 是 在 自己 的 故事 里面 你 不断 地 感受 说 自己 到底 是 什么样 的 一个 人 然后 你 希望 你 为什么
要 做 这个 事情 对 吧 然后 我 觉得 可能 是 不断 去 思考 这些 问题 你 是 一个 什么样 的 人 你 为什么 要 做
这样 的 事情 就是 觉得 有意思 所以 对 就是 我 当然 就是 是 什么 有意思 呢 是 做 实验 有意思 做 科研 有意思
就是 去 做 AI
有意思
找到 真相 过程 去 不断 发现 新 的 问题 解决 它 的 过程 那 你 也 可以 解决 别的 问题 为什么 解决 这个
问题 呢 对 对 对 因为 这个 问题 它 很 重要 或者说 哪个 问题 很 重要 我 觉得 AI 很 重要 这个 问题 我 也 问过
Kimi 他 跟 我 说 这个 东西 是 他 说 这个 东西 是 人类文明 的 放大器 我 觉得很有 道理 又 回到 那个
The Begi nning of Infi nity 你 从 洗 魔 运动 到 现在 人类 一直 在 找到 新 的 方法 去 突破 这个
知识 的 边界 但是 可能 下 一个 突破 边界 的 确实 就是 你 得 靠 AI 因为 它 是 一个 巨大 的 杠杆 然后
比如 你 今天 在 任何 一个 前 学科 你 要 花 几十年 的 时间 二三十年 的 时间 你 才能 学到 最前沿 的 知识 但是 AI
可能 一夜之间 他 就 能 学会 然后 那 你 就 往 下去 做 新 的 突破 就 AI 它会 成为 一个 meta 的 scie
nce 我 觉得 这个 是 很
重要 的 人类文明 的 放大器 我 觉得 它 有 可能 摧毁 人类文明 吗 我 觉得
这点 上 我 觉得 还是 就 我 觉得 首先 这个 风险 肯定 你 不能 说 它 不 存在 但是 我们 可以 有 很多 事情 去
做 就是 你 不管 是 说 更 安全 的 对齐 还是 说 就是 更好 的 社会 的 机制 就是 我 觉得 这些 东西 都 是 比如说
就是 当 它 可以 做 一些 事情 的 时候 那 它 其实 很 有 可能 会 比如说 创造 出来 一些 新 的 工作 那 我们 需要 有 一些
方法 去 完成 这个 过渡 那 最终 就是 可能 这个 技术 的 进步 对 对 我 其实 exac tly 问过 Kimi
这个 问题 就是说 他 说 虽然 有 这样 的 一个 风险 但是 但是 我们 可能 不能 放弃 这个 事情
因为 你 如果 放弃 这个 事情 呢 你 就 等于 放弃 了 人类文明 的 上限 就是 你 不 知道 它 上限 能 做到 什么样 对 就是
有 一点 阴烟 废实 的 这种 感觉 但是 我 承认 就是说 我们 得 做 很多 的 事情 去 特别 是 你 今天 其实 看到
很多 AI 能力 我 觉得 是 有点 震惊 的 就是 因为 你 根本 半年前 你 都 想不到 现在 能 做到 这样 的 程度
需要 做 很多 的 事情 而且 同时 我 认为 就是 可能 人 的 独特 价值 在 这个 过程 中 它 还是 会 持续 存在 就 人 的
体验 人 的 情感 这些 东西 它 是 没有 办法 被 AI 去 替代 所以 就是 可能 我会 有 不同 的 活法
但是 就 希望 是 应该 是 能 活得 更好 什么样 不同 的 活法 我 之前 觉得 人 的 一生 可能 有
几个 不同 意义 对 吧 就是 可能 创造 体验 和 爱 然后 但 这个 每个 人 不 一样 这个 是 我 对 我 来说 但 我 觉得
创造 可能 创造 里面 的 很大 一部分 也许 有 可能 AI 是 可以 做 的 我 还是 很 享受 这个 过程 但是 你
不得不 承认 就是说 有 一天 你 可能 会 有 很多 的 创造性 的 工作 是 AI 去 做 但是
我 觉得 后 两条 就是说 可能 他 还是 会 是 以 人为 中心 那 如果 他
创造 拿走 了 的话 他 就 把 生产力 拿走 了 这 无所谓 因为 人 可以 享受 这个 生产 的 结果 就是 如果
我们 有 一个 好 的 机制 的话 还 需要 改变 社会 的 机制 对 对 但 它 也 是 一个 缓慢 的 过程 它 不会 是 说 你 一两年
做 完 它 可能 是 要 一二十年 逐渐 的 去 调整 你 会 频繁 的 跟 Kinney 聊天 吗 当然 就 我 要 测试
模型 吧 你 会 跟 他 聊 一些 很 深刻 的 话题 吗 有时候 会 或者 很 自我 的 话题 有时候
会 有时候 会聊 什么 除了 刚才 说 的 那些 也 还好 就是 还有 一些 是 这个 工作 时辰 的 问题 你 今天 听
你 的 成功 概率 是 增大 了 还是 失败 概率 增大 相比 于 什么 时候 相比 于 一年 前 我 觉得 是 增大 了 因为
我们 成功 概率 还是 失败 概率 成功 概率 对 对 因为 我 觉得 就是 就 你 只要 没 往上爬 你 的 成功
概率 都 会 变大 因为 会 有 一些 人 就 不会 一直 去 爬 那 你 恐惧 掉下去 我 觉得 肯定 就 肯定 会 有 恐惧 的 但是 恐惧
很多 时候 它 是 会 就是 更 多 的 可能 是 还是 还是 关注 就是 你 当前 这 一步 然后 能 做 什么 有时候 可能 想
这个 问题 是 更 重要 的 你 觉得 过去 你 有没有 走弯路 肯定 有 就 像 我 刚刚 说 的 就是 你 在 这个 过程 中会 有
很多很多 决策 有 一些 是 技术 决策 有 一些 是 比如说 业务 的 决策 我 觉得 很 重要 的 是 说 就是 一个 公司 在 这个
过程 中 可能 去 逐渐 调整 的 能力 就 像 比如说 知识 创造 也 是 这样 的 一个 过程 就是 你 不 可能 创造 出来 的
知识 所有 东西 都 是 对 的 就是 你 会 发现 有 的 东西 它 也 是 错 的 对 吧 但是 它 在 一定 时间 内 可能 是
对 的 然后 但 它 一定 时间 内 可能 是 错 的 但 它 是 错 的 之后 你 你 知道 去 做 调整 比如说 像 牛顿 做 的
很多 东西 他 当时 是 最好 的 理论 但是 他 不是 完美 的 理论 他 也 有 错误 对 吧 他 在 一些 场景 下 是 完全 就是
完全 错误 的 理论 你 这个 万有引力 需要 有 一些 别的 解释 你 需要 有 一些 这种 相对论 的 解释 又 通过 这个
时空 的 扭曲 去 解释 我 觉得 是 一样 就是 我 觉得 组织 的 进化 或者 一个 公司 的 发展 它 是 一个 动态 的 过程
然后 任何 的 中间 点 在 某些 时间 是 对 的 有 一些 时间 可能 是 错 的 这个 也 是 Kimi 告诉 我 的 就是说
它 是 任何 中间状态 都 会 成为 被 批评 的 这个 对象 或者 之类 似的 反正 类似 这个 意思 吧 就是说
我 觉得 你 总是 会 有 这个 时代 的 局限性 我 感觉 然后 可能 更 重要 的 是 说 你 怎么 在 这个 过程 中去 我 觉得
一是 说 投入 一些 可能 一定 不变 的 就 比如说 你 的 人才 和 技术 的 积累 然后 另 一些 就是说 在 这个
过程 中去 去 适应 和 调整 就是 你 能够 针对 不管 是 说 就是 这个 反馈 信号 或者 你 这个 环境 的 状态
变化 然后 去 做 一些 决策 调整 我 觉得 这 两个 东西 是 很 重要 的 到底 做 AI 时代 产品 是不是 跟 互联网
产品 完全 不 一样 因为 互联网 产品 就 会 通过 投流 去 扩大 DAU 扩大 市场 规模 但是 AI 产品 它
很 不 一样 就是 它 模型 能力 提高 了 然后 提高 了 那个 BAR 以后 它 自然 就 可以 获客 但是 获
了 客 也 不 知道 用来 干嘛 所以 我 不 知道 这个 怎么 平衡 呢 对 它 有时候 也 不 一定 那么
自然 我 觉得 取决 两个 变量 哪个 大 但是 你 确实 如果 你 是 在 技术 快速 发展 的 阶段 你 很难说
透过 投流 的 方式 去 去 赢得 这个 战争 我 觉得 是 很 难 的 但 它 可能 更 多 的 是 一个 辅助 的 手段 只是 说
你 这个 辅助 手段 跟 你 的 主要 的 手段 之间 它 到底 什么样 的 一个 配比 它 可能 是 需要 动态 调整 的 一个
关系 对 吧 然后 也 取决于 就是说 你 现在 的 参加 化 的 进展 或者说 你 的 这个 PMF 到底 有多强
就是 它 可能 不同 时间 点 它 是 有 不同 的 策略
甚至 这个 策略 也许 你 在 过 一两年 你 发现 它 又 是 一个 好 的 策略 我 觉得 也 不 一定 就是 我 觉得 我们 是
用 更 open 的 心态 去 看 这个 东西 但是 可能 在 每个 时间 点 是 我 觉得 最 重要 的 看 哪个 是 最大 的 变量
我 觉得 这个 是 一个 挺 重要 的 事情 OK 今天 最大 的 变量 依然 是 智能 对 对 就是 还是 爬山 还是 爬山 我
一直 问 你 各种 的 情绪 你 都 说 还好 还好 所以 你 最近 一次 或是 最近 两次 吧 盧内 自 嗨 是 什么 情境
为什么 呀 我 觉得 不以 物喜 不 以己 悲 这 是 我 然后 听 你 说 是 吧 很 难 做到 对 对 但 就 说 我 觉得 是
避免 一些 情绪化 的 决策 所以 你 会 情绪化 吗 就 可能 多少 肯定 会 因为 你 是 一个 人 但是 就是 我 是 说
可能 避免 一些 情绪化 的 决策 这种 落实 到 决策 和 执行 上 还是 要 更 理性 一点 你 最大 成长 是 什么 呀 过去
一点 我 觉得 是 说 认识 到 一个点 就是说 问题 是 不可避免 的 会 一直 存在 然后 持续 解决 新 问题 我 觉得 最
重要 可能 也 是 最 有意思 我 觉得 这个 是 一个 心态 上 的 一个 变化 然后 当然 它 可能 会 改变 你 很多 做 事情 的
方式 这是 一种 正面 的 方式 是不是 我 不 知道 怎么 理解 但是 可能 差不多 你 今天 一年 前 更 兴奋
吗 对 因为 我 觉得 有 两个 因素 一个 是 说 一方面 也 更 适应 这种 状态 所以 它会 兴奋 值 减少 但
另一方面 就是说 你 发现 这个 AI 的 进展 很快 就是 你 现在 能力 又 提升 了 所以 兴奋 值 又 增加 所以 我 觉得
基本上 可能 维持 在 一个 比较稳定 的 水平 我 问 你 最后 几个 块 快答 一个 群球 范围 的 你 喜欢 的 食物 食物
拉面 为什么 好吃 一个 少 有人 知道 但 必须 知道 的 知识点 好像 不太 擅长 回答 这种 问题 至于
所有 读过 的 书 推荐 两本 必读书 哦 这有 一本 我 刚刚 一直 在 讲 的 对 就 推荐 这 一本 心目 中 你 想 AI
进程 的 几篇 论文 是 什么 最 重要 的 最 重要 几篇 论文 最 重要 几篇 论文 就是 back prop agat ion
然后 对
可能 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 ,
但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 ,
但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 ,
但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 ,
但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 ,
但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 ,
但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 ,
但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 但是 , 用 Inno vation 用 L4 做 L3 最近 的 动物 是 什么 不 知道 我
感觉 我 脑子 已经 糊 了 我 已经 把 一年 的话 都 讲 了 没 办法 碳 基酸物 的 局限性
Loading video analysis...