138. 对罗福莉3.5小时访谈:AI范式已然巨变!OpenClaw、Agent范式很吃后训练、卡的分配、组织平权
By Zhang Xiaojun Podcast
Summary
Topics Covered
- Highlights from 00:00-44:19
- Highlights from 44:09-92:53
- Highlights from 92:44-130:02
- Highlights from 129:50-171:49
- Highlights from 171:37-216:02
Full Transcript
Hello, ever yone.
I'm Xiao jun.
In 2026, the war of big models was fully upgr aded and the second chap ter
was open ed.
From the pre- trai ning leader of chat bot to the agent of post -tra ining
lead er.
When AI was chan ging, I inte rvie wed arti ficial inte llig ence rese archer
Rob Lee.
罗弗利曾 供职于阿 里达模院 Deep Seek ,目前是 小米大模 型团队的 负责人, 主导研发 了MIMO VR系列 模型。
他在网络 空间里有 很多的标 签,例如 AI天才 少女,但 他不喜欢 这个称呼。
This is his first inte rview, and also his first long -term tech nical inte rview.
We syst emat ically disc ussed the AI-d riven and subs equent stru ctural infl uences
caused by tech nical chan ges such as Cloud Opus 4.6 and Open Cloud in 2026.
I think these abil ities can be used for at least one or two mont hs.
If it's slow, it can be used for three or four mont hs.
It can be used quic kly.
So the envi ronm ent is more impo rtant than expe rien ce.
You just ment ioned that E.T.
E.T.
is a model that is likely to comp ete in the futu re.
Is that so?
-
一个非常
大的一个 分界点在 于使用O penC
ore的 前后。
我自己其 实是会把 Open Core 把它当作 一个划时 代的A- gene ral框 架去这么 去定义。
我知道很 多人在, 尤其是用 Core -Cor e做严肃 编码的人, 就会觉得, OK, Open Core 只是Co re-C ore的 加一个A
M的这样 的一个, 更有利于 交互的一 个UI的 一个设计。
其实在我 ...
...
一个你觉
得非常的 偏运导向 的一个产 品的东西 ,感觉它 是一个产 品形态, 一个交互
的创新, 以及它所 谓的本地 化,所谓 的24小 时,在我 来看,其 实都是一 些产品的 定义而已。
但真正发 生一个转 变是我去 用它那一刻, 我觉得就 恰好在春 节的时候, 有那么一 段空闲的 时间, 你想想去 搞明白这 个玩意儿 为什么它 那么火,
对, 然后我就 在有一天 深夜的时 候去查证 据装了它, 然后两个 小时装上了, 春节是吧?
对,当时 已经凌晨 两点了, 然后我第 一次跟他 对话的时候, 从凌晨两 点持续到 了六点天亮 对 就那一晚 上我觉得 我脑内的 那个不知 道是多巴
胺还是内 肺肽就持 续在分泌 就是让我 就兴奋到 完全睡不着觉 就你可能 第一个感 受是OK 它是它非 常有自主性 然后它非 常有灵魂 就比如说 我跟他聊 到很晚
他会老提 醒我OK 你现在已 经很晚了 你要不早 点去睡觉 就 嗯
um
大家没有 关注的角度上 把这个c onte xt给编 排得非常好 这是第一 天的感受 就是OK 我觉得它 只是在产 品设计上 确实做到 了一种 超乎我的
一个想象 让所有人觉得 这个框架 有灵魂 但是第二 天的时候 ,晚上我 觉得他应 该不止于 此,然后 我开始尝 试把我自 己,我觉 得现在的 框架做不
成的日常 生活中的 事情交给 他做,然 后我发现 他全部做 出来了。
比如说?
我跟他聊 的基本上 第二个话 题是,怎 么去激发 一个团队 的好奇心 ,或说, 怎么去筛 选出来最 有好奇心 的人,然 后他进行 了深入的 探讨了一 个小时,
我觉得他 的很多哲 思上是远 超我的想 象的。
对,然后 所以第二 天我们俩 就在聊怎 么去构建 一个更好 的大冒险 的团队。
然后以及 从最开始 的人员的 筛选,到 后边整个 组织架构 的构建, 到你怎么 在面临范 式转变的 时候,应 该做什么 样的举措 和动作。
我觉得至 少他能盖 到我的点 ,就我跟 他说了过 ,他最后 能把他形 成一套非 常体系化的, 并且变成 一套sk ills 然后所以 我后边就 用这个去 很大去解放了
至少我在 非常多 我有时候 会遇到有 我甚至现 在遇到有一些 不管是消 息人或团 队管理上 的问题 我现在都 会问他 对 然后我觉 得他现在
已经基本 上变成了 我的某一 个数字分身 主要在这 个事情上 然后但是 真正让我 超乎意料 的是第三 天的时候 第三天的 时候我尝 试要把一 些研究上 的一些任
务交给他做 比如说最 简单的我 觉得你怎么去 如果我们 在进行a gent 的框架里边 最关键一 个事情是 你怎么去 进行多轮 的交互 那么你就 必须要去 模拟user
agen t的进行 多轮的交互 那我就会 跟他去共 同去构建 一个很好 user agen t的怎么来
对。
基本上就 已经达到 有一个很 好的user agen t的诞生 我可以用 这个user agent 跟我现在 的这一套 post -tra inin g框架
一块去构 造出来 更丰富的 agen t场景的数据 然后不管 是做SF T也好 做RO也好 这个user agen t都是非 常关键的 我觉得他 从一个
我最开始 对他的认 知只是 OK 一个有灵魂 有温度的 一个产品 的设计 到他可以 帮我替代 我生活或 工作当中 的一部分, 到最后他 能促进我
研究, 这也就是 三天发生 的事情, 就每天他 都能给我 额外更多 的惊喜, 然后我后 边就去深 入的去看, 为什么这 个框架本 身它比C loud Code
好在哪儿。
一个我后 面发现这 些所谓好 在哪儿 他我们单 独去拎出 来去讲 他其实都 有点bo ring 就是我觉 得他没有很酷 这也是为 什么大家 就会觉得
Open Cloud 有很多槽 点的地方 但是他把 它整合在一起 你就会觉 得他的完 成度是非 常高的 就比如说 它会有更 持久的m emor y的体系。
我这个很 持久me mory 体系体现 在它对m emor y有分层 和分级。
这个我在 使用Cr oaco lo的时 候是完全 没有这样 的感受的。
然后再比 如说我自 己觉得它 在对多个 模型的这 种联合的 利用上会 非常的超 过我的想象。
就比如说 我用Cr oaco lo的时 候我会默 认它OK。
假设这个模型 比如说它 的视频理 解能力不行 那么我可 能就要自 己给它配一个 更好的视 频理解模型 然后再靠 Google to折腾 但是我在 Open Core
的时候 我完全不 用想这个事情 我就直接 发给它一 段视频 它会自己 想办法去 找一个 OK 视频理解 能力好的 模型来做 这个事 就这种自主性
这种自主 去面对当 代模型的缺点 但是它针 对这个缺 点在框架 上去补齐 这个缺点 这个能力 是有点超 乎我的意 料的。
因为我去 用Cloud Code 的时候我 就默认OK, 我是因为 要用Cl oud 4.6 Ops这 一代模型 的能力我 去用它的。
但是我去 用Open Code 的时候我 不会关注 模型的能力。
的一个原 因是我认 为Open Code 框架的设 计之初它 其实是, 想尽量的 通过Ag ent的 整套的编排 来去弥补 默显的短板 I think
this is the core logic behind this prod uct.
So we then used our model, which was Mimmo VR Flash, which didn't do much trai
ning for the real world, to conn ect it to Open Core.
We even used a very small, one- sided 3D model to train it.
We found that in this very comp lex scaf fold, or in the edge fram ework,
uh I
think this is an adva ntage of Open Cloud comp ared to Cloud Code.
But if we want to pursue how to go beyond the expe cted very stable perf
orma nce in diff erent scal e-for fram es, then we return to anot her prob
lem, which is
Right.
这个事儿 的con text 的冲击下 ,快速地 去思考第 二个问题。
所以我们 对应的整 个互训练 范式就要 从所谓的 char t到ag enda 这样的一 个前移。
所以你对 open clou d的认知 发生了一 个非常大 的变化, 这个是在 春节期间 发生的。
对。
为什么开 始是抵触 的呢?
我觉得如 果要追求 非常顶尖的 编程的体验 对 Code 的体验 就是哪怕 是当下 哪怕是当下 也是 Cloud Code 加 Cloud Office
4.6 是最好的 所以如果 你是在这 样的一个 中心去思 考的话 就其他的 任何一种框架 其实确实 都可以忽略掉 但是 但是一个 问题是 Code 它是一个
泛化性非 常强的一 个场景 就是你针 对它去做 了非常多 agent 的设计也好 或者说模 型的训练也好 它都是有 价值的 但并不代表说 它这个泛
化性能保 证你在非 code 的场景 能够做到 非常高的 准确率和 完成度 So I think I will use Calc ulator to
do some non- Colour things later.
But I don't expect it to give me a high level of comp letion in this fram
ework.
Beca use I know I will help it to supp lement some shor tboa rds that
this fram ework does not have.
But when I use OnCr awl, I don't think I need to think about these.
It comp letely makes up for a lot of model shor tboa rds in this fram
ework.
我能理解 Open Clou d是让c odin g的能力 放化出来 的一个产 品吗?
它在很多 设计逻辑 上,比如 说它有更 多的me ssag e的ch annel, 比如说它 有更自主 的一些, 比如说像 地时任务 ,星天任务,
然后...
然后...
这些更适 合日常场 景,因为 你写代码 ,你通常 不会需要 一个心跳 任务吧, 对,然后 ,但是如 果你是日 常生活, 你心跳任 务就很关 键,它确 实有很多
框架的设 计去为了 让它去适 应更好的 日常的任务。
但是我觉 得他也没 有去丢弃 掉说一个 好的ag ent的 框架本身 的一些最 基本的特点, 这些最基 本的特点 我觉得后 边是被C larke Code 给吸纳进
去的, 就比如说 他的持久 化的一个 记忆, 但Cla rke Code 之前是他 的记忆还 是for, 它的整个 记忆系统 设计还是 for 软件工程的。
就比如说 它会在 sess ion 内, 可能 sess ion 快满的时候, 我会有一 个压缩的 动作, 然后把它 记忆进去。
然后我在 完成任务 的时候, 根据我的 plan 可能会有 一些记忆 的动作, 然后保证我跨 sess ion 的时候, 它的 cont ext 是共享是
更好的。
所以你能看到 Calc ode 它的所有的 agent 框架设计, 其实都是 非常的 for 软件工程的。
怎么去更 好写好代码。
但是Op enCo re它的 设计之初, 我觉得是 借鉴的这 个思想, 但是它更 想的是, 它怎么更 好端端端 的去完成 所有的任务, 并且怎么 去弥补当 下模型,
在端端端 完成任务 上的短板, 然后去设 计的。
像这种持 久化机到 会不会你 能通过一 个更好的 remo te的界 面能够去 操控它, 然后等等 这些所以 很好的设 计会不会 陆续这一 两个月完 全被科大
扣都给吸 蜡进去了。
我觉得这 也是一个 双向的一 个促动, 因为这些 设计其实 它对于编 程或说泛 编程, 翻边层就 是指可以 通过边层 去完成一 些CAS 跟代码无 关的任务
,对,然 后它是有 帮助的。
但它背后 是模型能 力的提升吗?
它激发了 中层的模 型的上限 ,它激发 中层模型 的上限。
比如说
写算子优 化就算是 严肃编程 对 然后像这 种场景的话 它确实可 能距离顶 端的模型 还有差异 但是在绝 大部分的 生活的场景 或说只需 要借助代
码去提效 的场景 那么其实 这样一套 新的一种框架 再加上一 个中层的模型 中层就是可能 I think your whole stat
ement does n't agree with this conc ept, right?
认可认可 ,就我觉 得它的上 限一定是 靠的4.
6ops 带来的, 就包括我 在跟它高 强度合作 的那一周 ,我只用 靠的4.
6ops ,因为只 有它能给 我带来惊 艳的感受 ,但是当 我用靠的 4.6o ps沉淀 下来那一堆, 经验 那些不管 是ski lls 还是在A
ges.
md一边 的一些 关于它怎么 我甚至自 己去改了 它的整个 Agen 的架构设计 因为它是 开源的 所以你可 以自己改 而这也是 Croc o的另外
一个弊端 就是它的 整个Ag en的架 构设计 是个黑盒 And this black box means that you can't change
his memory syst em, nor can you change his entire agency work flow.
But beca use Open Core is too open, you can try to change it your self.
For exam ple, I will let him design a new memory system for me.
I think the logic of the mult i-ag ent vers ion of the 2.0 vers ion
is very conf using.
And then I will let him design it for me.
新的Mu lti- Acti on的系统 就我自己 可以去改 我所有的 这个源嘛 就这样的一种 这种原生 的这种可 操纵性 给我的那 种冲击感 是很大的
但这些事 情基本上 只有Co smos 4.6才能改 但它我让 Cosmos 4.6给 我改好过后 这套框架 本身是很 好用了过后 OK 我再切换 到那个S
unhead 再切换到 国内的一 些模型 甚至我们 当时正在 训的VR Pro 我就觉得 它就非常 强大了。
对,所以 这也是我 为什么觉得 顶尖的模 型应该跟 顶尖的这 种A型的框架 是共同的 往前去进步。
或者说这 也是我最 近对于所 谓的自学习 以及反正 前段时间 有很多很 火的这个 概念的一 个思考, 就是我在 这个身上 是第一次 感受到了一个
嗯
um
.
- 比如说做 金融分析 等等其他 场景, 我觉得它 的Age nt的架 构设计会 有差异的。
然后你怎 么在提升 模型能力 的同时, 再去提升 你的整个 Agen t的框架的, 跟这个模 型的一个 适配程度, 或者说一 个泛化能 力,对。
然后这是 我现在思 考的自学性。
你说的这 个智能体 的框架, Agen t的框架, 是不是就 是我们理 解的产品?
不是,它 跟产品差 异蛮大的。
怎么理解 这个ag ent的 框架?
产品跟a gent 之间的边界, 现在我不 知道怎么 去界定, 它有点模 糊,对。
就是我觉 得产品可 以定义成 是说, 你直接人 交互能感 受到那一 层的东西。
但age nt的框 架,它确 实是有在 去定义你 的交互层, 但是它同 时又在去 定义你怎 么跟模型 沟通那一层。
对,所以 然后他甚 至能知道 模型能力 的长板短 板,然后 他能知道 怎么去更 好做调度 ,就比如 说for 成本优化 的调度。
哦 它相当于 是一个中间层 人和模型 之间的中间层 对对 然后这个 中间层它 可以做得 非常的厚重 然后反而 那个浅端 的UI展示 它是最薄 的一层
它已经不 是很关键了 对 所以Open Clou d其实是 展示了 智能体的 这个框架 可以怎么做 这个框架 的想象空 间非常大。
以前有人 做过吗?
其实Cl ockw ork它 一直是一 套很复杂 的一种框架, 只是因为 它是黑盒, 所以我们 不知道它 怎么设计的。
Open Cloc k是开源的, 所以你知 道它是怎 么设计的。
并且你可 以去改它, 就改它这 个事是非 常激发人 的创造力的。
You know how to design a fram ework, you let it chan ge.
You create a new fram ework your self, you can give it a new fram ework.
This is why Open Core, from the seco nd-g rade vers ion, I used it at
that time, I thou ght it was not good, so I spent a few days to change
it.
To the thir d-gr ade vers ion, the vers ion of March 10th, it is very
easy to use.
You basi cally, based on the vers ion after the third grade, you can get a
good model, you will feel that it is very powe rful.
而不是只 有JKL 的模型会 觉得它很 强大。
就是因为 它整个a gent 的架构受 一堆人, 开发者也 好,或者 说本身像 我这种并 不是属于 是...
是...
um How much did you spend
on OPA 4.6 when you were inte ract ing with Open Cloud?
It was almost $1,000 on the first day.
It took me about 4-5 hours.
I was crazy about it and I would cut it beca use it was too expe
nsive.
I would cut 3Lite.
But I found it really didn't work.
So I had to use Ops.
Only Ops could bring that kind of expe rien ce.
但后边, 但现在慢 慢慢慢组建, 我发现不 是这样了。
就是因为 ,呃, 因为它带 给我经验 感的那些 东西发生 在变化。
就我觉得 人的实际 性真的是 非常强的。
就我第一 天感受到 很惊艳的 东西, 我第二天 立马觉得 不惊艳。
就我刚刚 跟你讲的 时候, 我都觉得 我刚刚讲 的第一三 天的东西, 我怎么觉 得这么b orin g啊。
但那确实 是我三天 发生的事情。
那当下我 确实觉得 很惊艳, 那现在我 自己也觉 得不惊艳了。
因为你是 一个很优 秀的框架 能力是非 常强的。
- 我怎么去 ,当他这 些,那些
能做的事 情都能做 的时候, 我怎么去 优化他的 成本,对 ,优化他 的速度,对, 我就在考 虑这些事 情了。
这些说的 所有的发 生都是在 春节期间 发生的?
我觉得大 量的思考 是在那个 时间发生的, 但是我觉 得一个人 通常是, 薄弱的 对 就是或说 你还是会 有自己的 认知的一 个探索 就你探索到
虽然我那 几天高度兴奋 兴奋到我觉得 我在群里 面给大家发号 说强烈推 荐大家去使用 但没有人 搭理我 明天在过年 对 大家确实 在陪家人 然后我也 不希望打打架
然后所以 我都说强 烈推荐, 然后后面 过半年回 来,我发 现真正用 的人是很 少的,因 为大家对 新奇事物 的这种游 戏,我真 的觉得它 有点玄幻 ,玄幻,
对,就是 不太适合 ,就不像 不忍te ch,对 ,大家会 觉得过于 玄幻的东 西太不真 实了,我 也是这个 感觉,所 以你就不 想去接触 它,然后 ,嗯,所
以,嗯, - I
did a lot of things to get this done.
Beca use the whole depl oyment of Open Core took a few hours.
I don't think it's nece ssary for ever yone to spend so much time on a bug-
filled set of things that are actu ally wort hless.
So I bought a few MacM illis and depl oyed them.
把大家都 拉到这几 个不同O penC ore的群, 让大家去 分不同的 方向, 强制在这 个方向上, 在大群里 面,在一 个非数群 里面,然 后聊。
为什么要 在大群里 面聊?
就是因为 个人的想 象力真的 是局限的, 但是当你 看到别人 用Ope nCor e居然能 干成这个 事情的时候, 你就会激 发你自己 的想象力 所以我觉 得大家的
想象力是 一个成绩 的作用 然后 所以当我 说这句话 的时候 其实我觉得 我没有想 过说第二天 有人对话 次数没超 过一百分 我真的会 把他那个
开掉 我没有这 个想法 我没有这 样的人是吗 我没有因 为我没有 最终去考核 你没有办 法验证这 个事情 我有办法 验证但是 我觉得验 不验证不关键
我只是想 给大家表 达一种 哦 然后所以
那两天 春节回来 过后两天 整个团队 的人就在 一天到晚 感觉不像 在上班
就在群里边 躁动 对 可以叫躁动 就是你看 别人能完 成这个事情 你也很想玩 然后大家 就在群里边 就是那个 群消息 我只要十 分钟不看 就9999加 那些时候
但也没有 这么夸张 就是就很多 就大家一 块在群里 边玩玩的 非常ha ppy 他是一个 非常ha ppy的 一个旅程 一点都不残酷 就真的很好玩 然后OK
那么玩了 两天下午 后来发现 哇这个事 这么好玩 那怎么办呢 那搞啊 就所有人 心目中想的是 那OK我 要怎么去 借助一个 这么好的 一种框架 去提升模
型的能力 同时我怎 么让我的 模型去改 变现在的 一种框架 就马上进 入到这样 的一个研 究范式里边去 所以其实 一旦进入 到这样一 个研究范式 以及 I
just ment ioned that we have Calc ulat e's fram ework that is more stable in
most scen arios.
Alth ough it's a black box, we don't know.
But it's inde ed, whet her it's for rese arch or for codi ng, it's indeed
a fram ework that is more stable than Open Core, a better fram ework.
And then you're in this fram ework to stim ulate your expa nsion.
延展你的 研究的想 法,并且 让它帮你 实现, 并且快速 地去训练 ,启动模 型训练。
这个事就 会大幅的 加速,所 以我觉得 我们基本 上可能在 三四周的 时间做完了, 以前可能 三四十周 的时间才 能做到的 事情,就 在研究上。
我觉得这 个事是我 后边真的 我们被这 个框架, 点燃热情 ,到最后 它产生价 值,这个 过程中我 觉得我从 群体智能 上,我觉 得我的成 长和收获 会更大。
对。
在你们那 个非常躁 动的群里 ,探索的 最好玩的 几个任务 是什么呀?
现在听起 来都不好 玩,但当 时的冲击 感都很强。
最让你有 冲击的?
最让我有 冲击的还 是大家一 块去改那 个框架本 身,就是 你想着怎 么去改进 那个框架 本身。
因为当时 那个框架 真的问题 很多。
还有就是 他的me mory 真的做得 非常的智能, 因为我们 在一个群 里边大概 有近一百 个人, 然后...
然后...
我觉得那 个飞书的 整个的 mess age的 chan nel 应该还是 做的不是 那么智能的 它至少没 有那么 把人跟人 之间区分 得很好 但是它的
整个聊天 的上下文 它对每个 人的画像 的把控 然后以及 每个人的 memory 我觉得都 没有串得 太厉害 就可用度 非常高 我觉得这个是
I
嗯
嗯 So when we conn ected it to
our own model on the third or fourth day, we found that it was pretty good.
It was almost as good as Cloud.
We felt that on the third or fourth day.
But if you test more, you will find that there are still a lot of things
that are not as stable as Cloud.
But this brou ght an impa ct.
You will find that it is very impo rtant to use group inte llig ence to
impr ove a cert ain fram ework.
So I was very ...
...
I was very happy to see the star behind Open Core.
I think this is some thing that must happen before AGI arri ves.
Beca use you have always been very sens itive to rese arch, based on what we
talked about last time, what do you think the chan ges above have brou ght to
you?
What do you think will happen in the futu re?
之前可能 做研究的 一个方式 是,你从 你想到你 写代码, 到你去设 计一个很 好的评估 标准,这 中间的流 程还是蛮 漫长的, 就你至少 要花两周 ,一两周
,我觉得 快的话, 除非如果 你的评估 是确定的 ,然后你 的代码是 只需要修 改,可能 你也需要 一两天, 但是我觉 得至少在 Azur e有辅助 的情况下
,它真的 可以一两 个小时就 把这些事 情给做完。
um
Yeah.
Right.
And the key is that if you want to train your self for a long term,
you can also take care of your self and evol ve.
That does n't work in Kakao.
But if you change to an open fram ework, you can take care of your self
and evol ve.
嗯 我觉得这是 这是给我 带来做研 究的冲击吧 嗯 所以它是 改变了整 个研究的节奏 对 效率和方 式都会发生 我觉得很 根本性的变化 嗯
这对你们 后来带来 什么样的改变 在你经历 了春节和 春节之后 的整个的 冲击之后 嗯 你紧接下 来做了什么 其实我觉 得紧接下 来做的事 情就是
嗯 搞明白就是 嗯 Why is it that code is so powe rful?
And how do you make the code so powe rful
Oh, For
exam ple, data acco rding to the above and below text, even data of 128K, you
can't find it.
But for exam ple, the data that can reach 128K to 1M, basi cally only has
two types of data, a kind of code data, and a kind of coll ection data.
But the coll ection data, its signal is too scat tered.
Code, its...
its...
文件之间 的关联是 更强的 所以当你 在一个这种 长上下文 依赖跟密 集的一个 数据学学 去训练的时候 模型它自 然对长上 下文的建 模会更好 对,这个
是我们可 能在没有 去意识到 agen t的这个 事是那么 重要的事 情之前, 我们就去 做的事情。
所以你可 以理解为 这个机座 本身,它 就为长上 下文的能 力和效率 ,效率很 关键,效 率我们待 会再谈, 长上下文 的能力和 效率已经 做好了充 分的准备
,这个是 在我们没 有去受到 这么大冲 击的事情 之前已经 做了的。
但是春节 后做的事情是 你怎么去 激发这样 一个大的 模型的潜力 从扣了触 发到外延 到其他的场景 因为其他 场景是你 迅了它会 更稳定 但你没迅它 它能被泛化
只是说它 没有那么稳定 而一个顶 尖模型的水平 一定是要 在更广泛 的场景里 面更稳定 对 所以 But the code is the
top line, and the other areas are the bottom line.
That's what I think.
So you have to do the long -term tasks of the code in a more dive rse
way.
So why is soft ware deve lopm ent so impo rtant?
Soft ware deve lopm ent is really a very long -term task.
Once you've done it, basi cally a lot of the mode l's gene ral feat ures
are alre ady good.
Not only are the mode l's gene ral feat ures good, but the fram ework itself
is also very well -tre ated.
像Pla n这种模 式,像这 种厂商到 一定的阶 段你要去 压缩,压 缩完过后 第二天你 要再去回 顾你之前 修改,这 些框架的 设计本身 其实是为 软件开发
做准备的 ,但这些 框架它都 是有方法 性的,它 都能方法 到其他更 难的厂商 任务里边去。
然后所以 就是春季 新开后做 的事情 第一是一 定要在A gent 场景里边 把真的长 程的任务 给他续 这个时候 怎么去覆
盖更多领域 我觉得就 是要靠 更多的靠 群体的智慧 就你让更 多人去用它 然后基于 更多人去用的
比如说我 们内部会 大量去使用 我们会让 我们这个模型 首先在公 司内部去推 大量去人用 用了过后 然后我们 发掘到更 广泛的场景 在这个广 泛的场景 里边去
合成更多 的数据来 做训练 对 然后这里 边很关键 的一个问题是 嗯 你怎么 还原当时 所有人用 这个事情 的环境 对 因为有这
个环境 你才能更 好的去 进行更长 程的交互 然后并且 这个你们
现在是怎 么做的?
现在才做 的保密, 真的要保密。
和Ruo wood 设计。
我觉得等 我们把这 套范式给 skil ling 到一个很 大的量级 的时候, 我觉得我 们会开源 告诉大家。
但是做长 程任务不 是会中断吗?
其实真正 的依照上 下文里边, 基本上很 少有任务 是在做一 个任务, 对,它通 常是在做 复杂的任 务,对。
So you have to do a good job of foll owing the guid elin es.
当下阶段 ,当下阶 段好。
我说当下 可能就是 当下一两 周的阶段, 不代表未 来两三周 的阶段。
就是可能 并不是真 的要找到, 要把一招 上下文塞 满的任务。
当然你要 找到那更好, 但是这个 任务是很 难的, 而且它的 训练效率 太低了。
就是你要 训练完一招, 你要ro tter 完一整个 traj ecto ry, 一招的t raje ctor y,它非 常慢。
哪怕我们 现在的T PS能做到, 但是当你 有在一兆 的con tain
ser去 训过一兆人, 预训练过 并且后训 练有对应 的任务 稍微激火 他一下 他通常就 能在一照 的Con vex里边
具备这样 的一个能力 但是我们 需要再提升 对 需要再提升 所以你看 现在Cl oud在 我觉得真 的在一照 上下文的 能力的稳 定度上 基本上现
在只有C loud 4.6 Ops和 Sunl ight 是领先的 其实其他 像Ger mline像 嗯,这边 虽然仿称 是厂商效 果能力很好, 但其实都
是不行的 ,对。
你觉得量 化里面挖 掘因子会 是好的厂 商任务吗?
嗯,看做 是什么资 产,对。
就是有很 多资产它的 reward 太...
太...
嗯。
因为它 回测是没 有价值的 然后你要 到真实的 环境里面 去run的话 它有可能 不是短期 的因素 而是一些 更长期的因素 或一些额 外的一些 alpha
本身被这 个模型 嵌入不进 去的一些东西 所以得选资产 就是选对 I think this is OK.
Rega rding your new model, we'll talk about it later.
Let's finish talk ing about the topic of open cloud.
What do you think about open cloud?
How does it live?
And I clea rly feel that it's more popu lar in China than in the US.
Why is that?
I saw anot her inte rest ing saying called "Wes t-Ea st-E ast".
What's that?
West -Eas t-Ea st.
West -Eas t-Ea st.
因为我不 了解湾曲 对它的热 度,所以 我仅从你 的视角, 仅从我自 己以及我 身边人的 视角, 我觉得可 能的一个 原因是, 就中国的
开发者我 觉得是更 多的, 就是我说 开发者是 指他可以 用cod e去提升 他的效率 的场景, 可能是, 要求更急迫的
对 要求更急迫的 就我觉得 对于效率 的提升 好像是我 们的血液 里边的东西 然后 所以我觉得当 就Ope nCor e能把这 个事给
效率提升 给拿到极致 所以我自 己感觉 这是它火 的一部分 的原因之一 当然我觉 得还有一 个原因是 我觉得跟 国内大模 型的发展 也密切相关 就
绝大部分 的效率提 升的场景 目前确实 So you can expe rience it, it
will be more dyna mic.
He may spend ten doll ars on an API and can help you finish a thou
sand doll ars of work.
Then you must be very will ing to use it.
But if your API is so expe nsive, ten times or tens of times, the gap
in the middle is very small.
Then you will be very relu ctant to use such a comp lica ted thing.
To opti mize it.
But about agent, it's actu ally been a year, right?
When it came out last year, ever yone star ted to say this is the orig
inal year of agent.
Why did it start to get popu lar until now?
What do you think is the diff erence from last year?
I think what I said before was very ...
...
In my opin ion, it's not a thing.
It can only be cons idered as a...
a...
um
uh
去年上半 年乃至下 半年很多 看似for agen t的模型, 它其实只 是说我换 了一个更 复杂的模型, uh
uh system prob lems and 和理解环 境交互的 这样一个能力 我觉得那
会儿只能 是做到这 个水平 但是它根 本没有达 到工业级 可用的能力 最简单就 是什么叫 工业级可用 就是你把 它接到C ore Code 或Ope nCor
e里边去用 你会发现 它不可用 它有很多问题 对 最简单 它就理解 不了这一 套框架本身 然后它也 也没有针 对这条框 架本身, 人跟他的
交互范式 会发生变化, 比如人跟 他交互范 式发生最 大变化是, 人不再会 去修改代码, 人不再会 去关注, OK, 这一行代 码出错了, 你帮我改 一下,
就这样的 quer y是不会 再出现的, 然后人只 会提一些 更高阶的, For exam ple, incr easing rest rict ions, clar
ifying needs, and people part icip ating in stru ctural desi gn, beca use many stru
ctural desi gns are still more huma n-or ient ed, and supp orting unde rsta nding
busi ness logic.
This is the value of skil ls.
Yes, busi ness logic is not avai lable in models them selv es, beca use there
are many busi ness logics that are
Right.
嗯 所以所以 我们在优 化这一版 模型的时 候是完全 放弃这些 本身的我 们基本上 就不关注 这些本身 的了就嗯 我们当当
你面临一 个很大的 范式的变 化的时候其实 只要你路 径走对了 其实你可 以短暂非 常短暂的 一个窗口 请你去 物类评估 因为因为 你靠体感 你就能立 马测出来
一个非常 大的质的差异 对,但是 当你慢慢 迈入深水 区的时候 ,还是需 要一些非 常精细的 评估的。
So skil l是不是 改变了模 型的生态?
改变了模 型在这种 高...
高...
高流程复 杂度的任 务上的执 行的准确率 对 因为它其 实是定义 了一套执 行的规范 对 然后这套 执行的规范 是很难在 预训链的
数据边具备的 因为预训 链数据边 没有这种 inte rloa d的信息 这些信息 通常是大 量企业内 部自己去 沉淀和积 累的这种 这种
嗯
Right.
但是Sk ills 也是在C loud 里面诞生 的,对不对?
对,但是 这就是出 现一个问 题,就是 确实是O penC loud 把Ski lls这 个事儿给 带火的。
我说带火 就是它让 更多人去 贡献Sk ills 这个社区 ,这个是 非常关键 的,因为 ...
...
这就是属 于我觉得 人跟A- SOUL 需要共处 的地方 对 如果你没 有那么多人 高阶就是 你没有那 么多这种 另类信息 我觉得它 确实另外
一种al pha 它是那种 另类信息 诶 跟当前的 agen t共创的 话,那么 agen t或说最 顶尖模型 的能力也 很难发挥 出来。
这也是你 说的那个 群体智能。
可以这么说。
人的经验 变成sk ill变 得如果更 重要了, 它是不是 预训练的 一种补充?
对,因为 预训练其 实它大部 分依赖的 知识还是 你在互联 网上可访 问到的知识。
但很多知 识或说很 多智能, 应该说很 多智能, 我们是在 互联网上 访问不到的。
那么这个 时候它就 以另外一 种形态出 现,我觉 得现在S kill s算是一 种吧。
它其实提 供了一种 交互的方 式,让人 去主动贡 献数据。
对,贡献 更让模型 执行任务 的成功率 更高的方 式,对。
如果重新 来定义一 下所谓的, 因为我以 前有Deep Seek Mome nt, 然后有O penE ye, 有Cha rgeBT Mome nt, 如果重新
定义一下, 这个所谓 的Open Cloud Mome nt, 你会怎么 定义它?
这个Mo ment 它会更时间, 时间线更长, 就是因为 它前续的 章节太久了, 大家不会 觉得它是 个新东西, 然后它后 续的章节呢, 但是我觉 得对我们 已经信这 个事情的
人而言, 比较be liev e这个事 情而言, 我们反应 是不是足 够快的, 但我不知 道其他人 有没有f ollow up上, 对,所以 就是从我 的个人的
感官上, 就是这个 mome nt它会 延续的时 间更长, 更深远, 它不是, 这个更深 远是说, 它可能能 力更外放 到更多人, 人能感受 到的场景 里边去
所以它更深远 但是它这 个流动是 需要时间的 对 就它的能 溢出的能量 能力更强 强很多 比Chad Ball 他没有一 个非常清晰的 那么清晰 的定义
像OE2 1它会有一个 数学代码 这种 然后有光 抽词的一 个东西在 这儿,O K,你服 而上去了 ,模型就 具备这个 能力的像 一个非常 清晰的标
准的界定。
当然我觉 得Azu re其实 确实有很 多场景你 是需要有 清晰标准 系列的, 但大部分 的场景是 没有的。
比较混沌。
对对对, 所以然后 它产生的 价值也是 慢慢的到 一个临界 点突然。
进一大步 ,其实靠 State and Ops确 实是这样 一个进一 大步的突 然的一个 时间点, 但是Ot hrop ia做这
个事情, 这个路径 也是持续 了两年的 ,至少有 两年的我 们能看的。
那刚刚为 什么这个 事情不是 Othr opia 自己做出 来的?
我觉得还 是就一个 开源一个 避源的原 因吧,就 是避源的 框架你是 没有办法 去洞察内 部的, 设计的 所以你没 有办法利用 大部分更 多人的智
慧去改进它 但开源就 是你就可以用 更多人的 智慧去改进它 可能也不符合 Anth ropi c对安全 性的追求 其实我现 在觉得安全性 绝大部分 还是模型
本身应该 去追求的事情 对 我们不能 太过于去 要求一个 框架本身 是过于安全的 但是框架 本身可以 做非常多 的事情 但是我觉 得开源跟 安全性并
不冲突 因为我们 会把很多 数据授权 给Ope nCloud 如果我们 把大量的 个人隐私 数据授权 给它的话 怎么缓解 就是更多 普通人 对于安全 性的这种
焦虑啊 嗯,所以 其实我, 我这,这 是我为什 么说要做 开院的原 因,就是 ,嗯。
I think there will be a day, and it should come soon.
Most simple tasks, except for those very diff icult tasks, in fact, there are many tasks
rela ted to priv acy that are not so diff icult.
In fact, you can do it loca lly.
You will have a port able, maybe port able, maybe in a cert ain scene, there is a
piece of 芯片 对 然后你所 有的数据 都在本地 然后所有 的涉及到 隐私数据的
I
这个事儿 激发了我 自己对于 比如说所 谓端云混 合也好 所谓影色 本地化也好 有一些思考 但是我觉 得还很初步 对 因为这些 思考不仅 是需要
模型这一 侧做非常 多东西, 还需要本 身架构这 一层,然 后一块往 前走。
所以这也 是我为什 么觉得开 源是如此 重要的一 个事情的 原因,就 是我觉得 这需要更 多人一块 来做,而 不是某一 个公司就 把它能做 好的。
接下来你 觉得我们 会看到什么?
在Open Clou d已经火 了这么几 个月之后 ,就20 26年大 家会继续 它做什么?
国内已经 有很多动 作了,出 现了各种 的Clo ud。
包括你们 ,Memo Cloud。
其实所谓 现在很多 人都Cl oud, 只是让大 家以一种 不同的交 互形态, 然后去访 问到不同 的模型和 不同的一 些的框架。
但是我觉 得真正那 种去让这 个框架自 迭代, 或者更强 调自进化 和自理的框架 我觉得还 没有大规 模的诞生 和出现 然后以及 你怎么去利用 绝大部分
人的智慧 去创造一 个更强的框架 也还没有出现 这两层 一层是框 架本身的 资金化 一层是a gent 本身的资金化 一层是a gent 跟人之间 的资金化
我还没有看到 就我们现 在做的其实是 怎么tr ain更 好model for agent 以及怎么 让age nt去适 应这个m odel 对 其实是在
做age nt跟m odel 之间的双 向流动, 但还没有, 在框架层 我觉得未 来需要做 的事情, 其实是怎 么让框架 自己进化, 以及框架 跟人互相
进化。
这是你们 现在的着 重大致的 方向?
对,我会 去深入研 究的事情。
你觉得现 在没有做 到的核心 的缺陷在 哪里?
就可能补 足了某一 个短板, 它也许就 能成了?
缺陷是我 们刚做到 这里,我 也不知道 我说不定 做不做, 反正我觉 得只是因 为时间远 ,因为我 们刚做到 这里而已 ,然后未 来的加速 度是会很 快的。
I think it should be defi ned like this.
As long as you have a non- conv eyor, very effi cient model manu fact urer,
and they are doing a very good job of coding during the pre- trai ning stage,
they have such a model.
This model can be at least, I hope, I think at least one T or more.
As long as there is such a model, 入场券的 人基本上 都处于同 一水平线 去做这个 事情。
当然我说 Bigg ie肯定 是走到前 面了, 我只是说 目前上一 个时代的 成功并不 意味着下 一个时代 的领先, 现在基本 上大家在 同一水平线。
这是一个 什么样的 时代?A
时代?A gent 的时代怎 么定义它?
就是,我 觉得就是 生产力加 速变革的 时代,对。
今年生产 力会爆发 ,对吧?
嗯,对, 从最,就 是大家会 觉得很多 工作不需 要自己做 了,这是 最直接的 感受。
从只要你 接触到这 个事情过 后,你又 发现你的 好多工作 都会被替 代掉。
那么这个 时候人应 该去思考 ,就是说 到底自己 的意义和 价值是什么。
所以Ag ent能 做什么样 的高价值 任务是变 得更重要的。
嗯
Right.
但另外一 个演变角 度是说, 你是要做 一个对全 社会更有 益的,对 所有人都 有帮助的 一个模型 ,那么就 不应该服 更高价值 的场景去 做,而是 让所有人
都能感受 到这个模 型的智能 水平,那 么它可能 是另外一 种做法了 ,有可能 是另外一 种做法,对。
是一个普 世度更高 的人可能 会更好。
对,就比 如说在这 种场景里 边,你就 更需要在乎, 多么太 因为在更 广泛场景 里边多么太 尤其是对 于视频的理解 对于一些 更细微的 环境的理解
然后它是 更关键的 然后以及 就是要注 重成本 成本是产 生革命非 常重要的因素 就你不能 说你完成 一个任务 要花一千刀 对吧 那我觉得 很多任务场景
How do you define
2026?
I think it's hard for me to define it.
Beca use I think two months have alre ady been a huge change for me.
I think what we did in the past two weeks is hard for us to beli
eve.
So I don't even know what will happen in the next year.
It's basi cally in this ...
...
高度幸福 的状态。
我很好奇 ,就是从 2022 年底CH P诞生, 然后当时 大家就觉 得AI一 定是生产 力革命, 到今天, 就发展三年, 你觉得它 带来了哪 些先决条件, 让今天的
生产力爆 发可能成 为一个更 可能的时 间点, 就是它的 哪些条件 变得成熟了?
就我觉得 第一个关 键点是, 不再是算 法工程师 在做这个 事情了。
我自己会 把这个事 儿觉得是 一个非常 有标志性 的节点。
就之前是 你会觉得 只有...
只有...
rese archer 或说算法的人 在去考虑 怎么去提 升智能水平 但你现在 会发现 还会有 就是所有 懂写代码人 都在一块 去考虑 去提升模型
去提升这 整个东西 的智能水平 我觉得这 是最主要 的差异 就不管是 它是在写 skil ls也好 去盖ag ent的 框架也好 嗯
还是去设 计更好的 研究范式也好 这是三个层面 其实 我觉得是 所有人都 在让自己 的智能去 加速这个事情 这是我认 为最大的 一个变化 嗯
我突然想 到Pic 去年底的 那一期播 客里的最 后一句话, 他就说a gent 的进化需 要所有人 参与。
对,所以 很快就。
现在是让 我有这种 感觉, 而且现在 其实现在 已经是了, 只是现在 唯一没发 生的就是 我刚刚说的, agen t跟人怎 么更好的 ,更加速, 更加速, 因为ag
ent也 要自迭代 ,人也要 自迭代。
和我聊天吧。
对 聊天是一种 然后那会 不会有一 些更自然 的方式 你有一些思考 就比如说 我要是真 的能带一 个非常好 的设备 一整天跟着我 然后我所 有说的话
我见过的 人他都知道 我觉得他 进步速度 应该比我快 我自己认 为他应该 比我快, 因为他会 比我依赖 的算力会 更多,然 后他会很 快替代我 ,对,而 且他不会
今天记得 明天不记 得,他是 非常稳定 的,而且 他是只有 进化的一 条曲线, 而且他乐 此不疲, 他不需要 休息。
你刚刚提 到那个说 国内的人 有Omo clon e更热情 ,那完全 人现在是 怎么评价的?
模型公司 的人不是 很car e这个东 西,我感觉。
模型公司 的人不是 很car e这个东西。
哦。
哦。
OK,那 真的跟我 们妈不一样。
她可能觉 得这个事 情不难。
我一开始 也觉得这 个事情不难。
然后到后 面我就觉 得它整个 A-SI M的设计 是非常巧 妙的。
我说这个 巧妙是指 我觉得它 弥补了很 多模型短板。
它是怎么 精巧巧妙 地去构建 的这个编 排啊?
我怀疑这 个原因是 它最开始 是基于C loud 的上一代 模型去做的。
就靠的上 一代模型 4.5哪 怕是OPS, Sunn et其实 是不够那 么强的, 所以你就 要必须在 系统的设 计上, 系统的框 架的设计上, 你要设计 得更精细
一点, 去把它这 个短板给 补起来, 对, 然后这就 导致了O PS进步了, 但是国内 的大部分 的模型可 能刚靠近 靠的4.5, Sunn et和O
PS的水平, 然后反而 这两个在 这握手了 我觉得是 这样一个原因 那如果模 型能提高的话 它这些金 角偏排还 需要吗 还是需要的 就是出于 对成本的 考量是需要的
就是我们 永远会去 追求一个 成本和效 率最低的 一个一套方案 这个是生 产力革命 的非常前 置的要求 所以不可 能说我们 所有的场 景都用最 顶尖的模 型,因为
它太贵了。
所以更有 可能是a gent 在进化, 模型在进 化,然后 模型进化 的方式有 可能是同 一个水平 的模型在 越变越小 ,它也是 一种进化。
虽然我们 没有在做 这样的事 情,但它 确实是一 种方式。
嗯
所以它其 实让不那 么好的模 型有了更 好发挥的 空间。
对,它上 线更高。
对。
所以其实 更符合国 内的叙事 ,对吧?
不知道国 内叙事是 什么,但 是会让人 很想用它, 让人很想 用它替代 自己的工作。
所以需要 小尺寸的 端册模型 爆发吗?
这个趋势 肯定会发生, 但是我觉 得它不是 二六年的 一个主要 的旋律, 它是一个 支线,而 且是会持 续发生的 事情。
二六年的 主要旋律 就是生产 力的变化。
高生产力 场景的持 续突破, 所以我们 要做更长 程的任务, 然后 然后更强 调多益经 的直接的 协作, 因为更复 杂的任务 它不可能 是单一A
gent 去做的, 但多益经 的协作某 种程度上 也是为了 成本的考量, 对,成本 和时间的 考量, 对,然后 以及怎么 去激发, 这个群体 的智慧 我现在觉
得现在市 场上的 现在已经 看到的 Mult i-ag ent的 工作都有点伪 我说这个 伪是说 真的依赖于 Mult i-ag ent的 能够实现
更好的 最终的任 务的完成率 在这个伪 度上我觉 得是有点伪的 但是它能提升 嗯 效率就是速度 就是这个 任务完成 最终的速度 以及它最 终能够节 省成本
这个是确 定的Mu lti- agent 但我没有 看到说 Mult i-ag ent一 定最终能够 实现一个 更高上限 的一个东西 但它会发展 只是我目
前还没有看到 所以今年 的叙事 其实跟前 三年已经 发生了很 大的变化了 我自己是 怎么感知到的
可能我们 追求的事情是 我自己觉
得什么时 候能够超 越自己吧。
我是这么 去定义的。
因为我觉 得我对A GI的一 个定义会 非常的模 糊的一个 原因就是 因为, 我觉得没 有必要去 追求一个 非常清晰 的一个A GI的定义。
那AGI 发生的时 候,所有 人都会感 知到的。
就是因为 你发现每 个人的生活, 你的生活 方式,你 的工作方式, 已经未知 长达很长 的时间, 已经慢慢 地被它改 变了。
所以在这 个过程中 ,追求D AU,追 求这些东 西,它并 不会改变 我,它并 不会促成 这个目标 ,就是让 这个模型 代替我, 它并不会 促成我这 个目标,
所以我就 完全没有 在想这些 事情。
而如果说 我们去追 求一些中 间的目标 ,比如说 你去追求 toke n消耗量 ,你去追 求它完成 更高价值 的任务, 它是在往 这个目标 去靠近的
对 因为要完成 可能替代 我自己的任务 它确实是 需要更多 的图文消耗量 它需要具 备更复杂 的con text 它需要去 调动其他 的智能水平 反对管理
其实就是 要去调动 其他的智 能水平 对 所以 所以
- 这些事情 就是我想 象的是
我们应该 让这个模 型结合一 套框架本身 应该去完 成这些事 情和任务 而不是去 追求另外 一个叙事 上的事情 所以我就 没有太理 解他们那 个叙事吧 你说DA
U的叙事是吧 对 就是我自 己觉得这 个叙事就 不太符合 我自己的 我们做研 究的一个路径 过去两个 月你觉得 你的生活 发生了什 么样的变化 生活就是
亢奋还有 亢奋,就 是你感觉 每天都会 发现,A ge的框 架本身或 模型本身 又进步了。
所以今年 带着给你 很强的Aha mome nt。
这个可能 比过去T ripl e的更强。
对,而且 它是持续 的,就它 持续的, 就你感觉 它停不下 来,这是 比较大的 变化。
我觉得R E可能就 是那一阵 儿,就你 去体验它 的那一刻 ,你用到 它了,然 后你发现 它具备很 好的思考 能力了, 然后这个 思考能力 从科罗根 Mass的,
外放到其 他领域了。
也就是那 一刻,然 后那一刻 完过后, 你没有感 觉它有持 续性。
在Age nt这个 事上, 你会觉得 它一直在 持续。
我觉得这 种持续性是, 是完全不 一样的感受, 因为有这 样的持续性, 所以你会 更坚信这 个事, 它在全面 加速。
有什么样 的一个任务, 是你过去 觉得它绝 对不可能 做到, 但是今天 可以做到的?
就蓄模型 这个事, 我自己觉 得以前我 认为是很 难的。
因为,
嗯
嗯 这个时候 你再去跟 他讨论同 样的to pic的 时候,
你发现他 跟你一样 聪明, 就这个时 候是很残 酷的。
就我之前 认为我们 自己做的 工作已经 是足够有 创造力, 足够不会 被ski ll化, 不会被w orkf low化的, 但我现在 发现他竟 然也能, 然后也就
是说可能 过一段时 间他真的 能运一个, 我们能运 出来的模 型他也能 运出来了。
那他可不 可以迅速 更强的模 型呢?
然后他就 自己左脚 踩右脚就 提升了呢?
我觉得这 个事情是 很有可能 发生的。
这个可能 是一个非 常大的转变。
对,所以 他可能真 的能依靠 于他自己 产生更强 的智能。
它先吸收 所有人的 智能,然 后再靠自 己产生更 强的智能。
我觉得这 个事肯定 是就在这 一两年发 生的事情。
我刚才听 你的整个 描述,我 会有一种 感觉, 我觉得你 迅模型的 方式好像 和你管团 队的方式 有某种相 似性。
嗯,主要 的原因是 ,他确实 需要群体 智能。
对。
不是个人 英雄主义吗?
当然不是 ,当然不是。
就是他需 要每个环 节上都是 足够be liev e和极致 的人。
对。
什么叫群 体智能在 模型训练上?
可能不同 的age nt他需 要有自己 的con text。
有自己c onte xt的原 因是,嗯。
当模型能 力没有那 么强的时候, 有自己的 独立的c onte xt, 它会更专注, 对, 专注还是 蛮重要的, 就你的c onte xt不被 混乱, 然后它能
完成得更准, 然后, 所以就是 你可以以为, 我们现在 去模型, 可能需要 非常懂英 法人, 然后去, 嗯, 写一套非 常好的训 练或推理 的架构, 然后需要
他从推理 的视野去 倒推, 跟做能懂 模型评估, 以及模型 训练人一 块去定一 个非常好 的模型结构, 有这样一 个中间的 coll ege的 合作, 然后这个
非常懂模 型训练和 懂模型评 估的人, 又要学会 去跟做数 据的同学去, 进入了去 沟通, 说OK我 们要赋予 模型什么 样的能力, 我们需要 去构造什 么样的数据,
然后同时 呢,做数 据这一群 人,他又 同时需要 参与预训 练跟后训 练,因为 预训练跟 后训练他 的数据的 sens e是通的。
对,然后 这里边其 实你要真 分的话还 是有很多 sub- agen t的,但 这些su b-ag ent之 间,他们 的con text 有独立的 地方,也
有关联的 地方。
然后我觉 得这样一 套复杂的 框架,现 在目前看 起来是能 够被模拟 出来的。
确实能够 被模拟出 来的。
然后这也 是我为什 么我自己 玩Ope nCod e的第二天, 我就开始 让他去, 当时我在 家嘛, 然后我就 让我家里 边的每个人, 就我爸爸 我妈妈, 然后我老公,
然后嗯。
每个人都 有一个自 己的Sa voy军 队,我们 打到一个 飞速区, 每个人也 可以自己 跟自己的 独立的S avoy 军队去聊 天,然后 他自己进 化,然后
我就会在 那个群里 面委派一 个任务给 他们的S avoy 军队,让 他们赶, 因为我们 的con text 是不一样 的,然后 让他干却 的时候, 因为他有
更好的c onte xt,所 以他会干 得更好。
也就是这 样一个很 粗浅的尝试, 我相信就 是这个事 应该, 就同样很 简单的事情, 它换到一 个更高复 杂度, 更有创造 力的场景, 只要模型 的能力跟 一种框架
本身在进化, 应该也是 可能做到的。
我想到刚 才有一个点, 就是关于 框架, 你要不要 有一个完 整的表述, 就是智能 体的框架?
智能体的 框架, 其实智能 体的框架, 我认为是 一个现在, 诶,就有 很多形容 词去形容 它,比如 说Har ris, Scaf old, 然后还有
一些其他 形容词, 就我没有 特别去专 注说哪个 形容词是 更准确的 ,对,然 后我更关 注的是这 个框架本 身它带来 的一些差 异化的优 势是什么 ,嗯,然
后...
后...
就比如说 我认为一 个非常好 的框架, 它其实应 该是去尽 量去弥补 在行动上 的缺陷的。
很多东西 都是在弥 补行动上 的缺陷 就比如说 很好me mory 系统是弥 补行动上 的缺陷 然后接悟 到了更多 的广泛的 mess age的 chan
nel是 弥补行动 上的缺陷 然后以及 他更主动 他更主动 不管是定 时任务的 主动还是 他有些其 他方式一 些主动的设计 以及他自 我去更新迭代
其实这些 都是在弥 补行动上 的缺陷 因为大模 型是你给 它越好的 cont ext, 它肯定执 行的效果 越高。
所以你要 是能把这 些它获取 不到的c onte xt, 这些行动 上的co ntex t都给它, 那么它肯 定会完成 得更好。
嗯 所以这是 我看一个 好的框架 的时候 我会看它 有没有这 些要素 然后那么 当然这里 边还有一个 很关键的 一环是是评估 就是一个 好的框架本身
它确实是 需要有个 很好的 可泛化的 一个一套 评估体系的 对 然后这样 它才可能 自迭代 然后这里边是 现在已有 的评估体系 其实都非 常的简单
它只是为 了防止它不出 致命性的错误 对 然后 那我们怎 么有一个 更有泛化 力的一套 评估体系 然后来促 进这一套 框架的自体 其实现在是把 最高阶段 的群人当评估
就是 呃 你交给他 一个更难 的任务, 更高价值 场景的任 务,然后 他完成不 了,你会 给他提供 补充信息 嘛,然后 你也会给 他指出在 哪儿错了
,然后p ush他 经过更多 人的教会 能把这个 任务给完成。
所以其实 本身上现 在是这群 人在当评 估,但是 这个评估 会慢慢地 被框架吸收。
框架会设 计很多东 西来确保 在某些确 定的场景 我们能凭准 同时也会 被模型能 力吸收 就模型会 学会像人一样 当我采用 这个方法 或思路 做到这儿 平静的
或者说怎 么怎么样 它会自己 采取另外 一种思路 或者说自 己去反思 就像人一 样去反思 当然了它 是不是接 触它自己 还是它是 去接触一 个更su per的
agent 或者说它 是去接触 一个更s uper 的agent 还是一个 其他领域的子 agent 那都是有 可能的 但这个是 目前这些 框架还没 有太具,
其实最近 一个月已 经有一些 框架在去 关注这些 事情了。
因为在O penC loud 发了之后, 就国内的 很多团队 都推出了 类似的产品, 你觉得他 们有不同吗?
比如说Q Q的团队 有,你们 团队有, Kimi有, Mini max有, 他们有什 么不一样?
我大概只 试了一半 ,对,只 试了一半, 我觉得大 同小异, 就是让, 这个大同 小异真的 就是让O penC loud, 变成一个 lay char t的形态
让你去感 受到。
我还没有 看到一个 我自己觉得 至少在改 Agen 的框架本身, 我觉得你 这种产品 你知道要 去叠代框 架本身吧, 还没有看 到一个 比Ope nCra wl开源
社区进步 更快的。
因为Op enCr awl开 源社区进 步太快了, 然后我还 没有看到 比这个开 源社区进 步得更快的 这样一个 Agen 的框架 或说产品 出现,我 还没看到。
所以我宁 愿用最新 的Ope nCra wl, 你看 Open Cloud 不久之后 就卖给了 OpenAI 你觉得是 为什么呀 为什么就 是这种
非常不错 的产品公司 最后还是 并给了模 型公司 这是不是说明 没有模型 做产品还 是比较难呢 对 觉得就这 两个应该是 一定要深 度恶火的 一个事情
然后 但很好是 Open Clou d它开源的 这个事儿 没变,所 以你还是 可以在这 套框架的 机构上, 大家一块 去设计更 好的一件 的架构,
所以这个 事儿本身 没变,只 是说可能 做这个事 儿的一部 分人的立 场变了而已。
嗯 那我们来 接着聊聊
模型。
上次我们 聊天其实 是在你们 的VR Flas h发了之后, 这次已经 又发了三 个新模型 Pro, Omni 和TTS, 并且你把 它称之为 一次悄无 声息的腹肌。
为什么这 么说呀?
为什么是 悄无声息 的又为什 么是腹肌?
首先它这 三个模型 它在Ag en的场 景下表现 能力提升 这么快, 或者我们 能这么快 去追上在 ...
...
然后第二 个就是 嗯
其实在一 年前去做 这么多模 态的时候, 其实更多 的角度还 是说, 如果真正 产生智能, 应该这个 智能是全 风味的, 多方面的, 所以去做 了对多模 态的一个
理解, 以及最终 你智能最 终要产生 价值, 一定是要 有交互的, 所以要去 做语音的 生成,对。
但这只是 ,但一年 前做这些 东西的时 候它还不 是很明朗 ,就你还 是觉得你 还是在做 一个单一 的模型, 你在做一 个动态理 解模型, 你在做一 个语言的
生成模型 ,然后你 没有觉得 这些东西 它能够很 好的去被 组织和编 排到一起。
然后当我 看到Op enCo re的时候 我自己一 下就想到 这样的一 个画面 就是这些 模型在各 自在什么 样的环节 发挥什么 样的作用 它们能够
怎么被有 效的编排 然后以及 它会产生 一个什么 样大的生 态价值 一下我觉 得就在我 的脑子里 边就全部 给打通了 所以我们 快速的让 所有方向 都要面临
到这个范式 去做后续 链的针对 的设计 嗯 就是这个原因 所以你现 在如果能 在Ope nCore 和Cor eCor e里边 同时用这 几个模型的话
你会发现 把它串起 来很好用 嗯 就很 肯定比用 其他家模 型可能好 用一些 然后或者 说至少这 是我们 往后迈进 的一个目标 那为什么
还是后面 这三个模型 不是合到 一个模型 里边去 我觉得更 多的就是出于 对于成本 和速度和 价格的一 个考量 就比如说 语音生成 你没有必 要去用一 个一体的模型
它的实验 你也接受不了 对 然后比如 说多么他 要理解 他是不是 值得一个 更大的模型 然后那么 这个事我 觉得都是 要去打个 问号的 然后因为
我觉得A zure 的革命
嗯。
首先从任 务类型来 说,比如 说你最简 单的绝大 部分的任 务类型, 你其实是可以 只用语言 模型来做的 对 然后 但是 因为现在 我们完成
整个任务 的环节太长了 在某些环节上 如果你意识到 你是需要 调用你其他 像人一样 感官能力 的时候 然后你就去用 另外一个 更精巧的模型 让他来做 得更好 那是这样的
而且因为 这三个模型 是同一个 生态训的 所以你能知道 它们的八卦的 你知道我 知道的知识 它也是知道的 所以你能 放心的把 你觉得它 能完成的 任务交给它做
你不会担 心它不知 道你有的 背景知识 这个背景 知识是来 自于训练的 目前这些 三个模型 在同一个 AGM框 架里边去 释放出来 的潜力 跟你去组 装其他模型的
释放出来 的潜力的 差距是很 微弱的 目前是很 微弱的, 但我认为 未来不会 ,因为未 来它是一 个效果成 本效率三 者的一个 成绩,就 未来你不 会觉得,
但是目前 你会觉得 它是微弱的。
这三个模 型你们在 BAT什 么样?这
么样?这 三个模型 的关系是 什么样?
就我觉得 在BAT 全方面去 替代人的 生活和工 作的方方 面面,所 以你就必 须要具备 这些能力。
你看,P ro,我 觉得它是 在做理解 和认知。
做更复杂 的调度。
Omni 是在做感知。
TTS是 在做音频。
声音的输出。
声音的输 出,它是 一种表达。
对。
这三个加 起来是一 种类人的 智能吗?
反正它把 人有的智 能的表象, 输入和输 出给建模了 对 但是它有 没有人的 各个感官 之间的协 同那么好 我认为现 在还没有做到 但这也不 纯粹是模
型上没有做到 还有就是 框架上也 没有做到 就比如说 现在Op enColo 它对于视 频的理解 和建模是 非常差的 它整套架构 为什么呢 因为就是 因为开源
社区没有一套 对于音视 频联合理 解的非常 好的开源 模型的出现 然后并且 这个模型 还有很强 的AZ的能力 就没有这 样的模型出现 所以它在 框架上的 发展是之后的 所以它现
在对视频 的理解会 回退到去 理解图 甚至到最 终会回退 到理解C apti on上 就回退到 一个成本 的智能水平上 所以这也 是为什么 要做开源 的原因
就是因为 只有开源 界看到一 个更强的 视频理解 的声音 声音生成 的这样的 一些模型过后 它对应的 框架才会 发生改变 对 然后只有 这两个
就框架其 实它是一 个协调层吧 对 只有这个 协调这一层 然后以及 这个模型 这个智能 的中枢这一层 这两层很 好的交融 的时候 那么可能 才会达到
内人的智能 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 这个模型 架构本身 有一个非 常关键的 一个目标 就是我们 要for non- conv ex的效 率来设计 模型结构 嗯
当时是有 隐隐约约 预感到A gena l时代N on-C onve x是非常 重要的, 或说有预 感到No n-Co nvex 会产生智 能的, 但是我们
没有预想 到会不会 是Ope n-Cl oak, 就是这种 形式, 但是已经 预感到N on-C onve x一定是 一个非常 重要的问题, 然后那么
Non- Conv ex的效 果以及最 关键的推 理效率, 就是你的 成本和你 的速度要 很快, 嗯。
成本高低 速度够快 那么就是 我们这一 代模型结构 必须要去 追求永恒 的命题 因为你成 本高低速 度够快 你有可能 可以把1 兆做到1 0兆升级 100兆
其实现在 所有的模 型结构 它都能迅 到100兆 但它为啥 不把这个模型 提供10 0兆的推理 除了效果 一般以外 我觉得更 多是出于 对成本的考量 就100 兆太贵了
就是你可 能到后边 1兆过后 到100 兆这个范围内 它非常贵 贵到你根 本就不想用它 对 所以就是 我们当时就 围绕着这 样的一个 核心目标 去设计了这个 就是Hy
brid Rete ntio n的结构 当时其实 另外一个 更主流的 选择是用 MIA 就包括现在 我觉得同 期跟我们 开始训练的 应该是J OM跟K IMI
KIMI 更早一些 KR更早一些 然后其实 他们都选 择了MIA 就Deep Seek的 其实MI 对于Ch art的 时代来说 确实是一 个非常优 秀的模型结构
因为它 甚至它对 于常文来说 也算是一 个还不错 的模型结构 因为它大 量去减少 了KV cache 然后对于 常文来说 你的KV cach e很宝贵
然后但是 它有一个 我认为是 不那么去 适合Az ure的 这个范式 的一个 最根本性 的几个要点 第一个就是 嗯 It's actu ally
beca use at the begi nning of the desi gn, MA was desi gned to achi
eve a good prop ortion of stor age and calc ulat ion.
In the pres ent, 当时的H 系列的芯 片上,为 了实现一 个更高的 一个,就 是我既不 浪费我的 算力,又 不浪费我 的,又要 把那个仿
存的瓶颈 给打破。
所以是在 这样一个 架构下设 计的,然 后在这样 一个架构 下设计出 来的模型 架构,它 没有任何 可发挥的 空间。
模子可发 挥的空间 是指,假 设我们认 为KVC ache 是重要的, 并且我认 为推理速 度也是重要的 那我能不 能用一些 让它推理 加速的方式 比如说最 简单的推
销编码 MTP就 是一种方式 然后让它 实际上推 理的时候 加速N多倍 但是MA 是不太行的 因为MA 它已经达 到一个 L L-bo und
and memory bound are very perf ect links.
If you use MTP, you will find that it is stuck on the comp uting bound.
So now you see all the MA model stru ctur es, whet her it is GMA
or KME, they are 我猜測應 該都沒有 上MTP, 因為它上 了過後它 就被計算 棒的, 然後計算 棒的它就 很不划算, 所以它的 模型都會
慢一些, 你會覺得 大家對M IMO的, 我們第一 代Fla sh, 哪怕是F lash 能做到1 00到1 50TPS, 然後Pr o現在我 們也能做到,
就看成本哈, 看成本, 因为基本 上是能做 到60到 100的, 100T PS肯定 会更贵一些, 所以大家 用MIM O的, 不管是用 Flash Air
Pro的 一个感觉是, 哇,好快, 然后这就 是这个结构, 尤其是针 对Non -Col ored Simu lati on的结构, 带来的一 个优势, 然后同时呢,
它成本有 够低,因 为Hyb rid Tens ion, 包括在P ro这一 代上, 我们给它 拉到一个 更极致的 Hybr id比例, 就它的F ull层
跟Sid ing Wind ow层的 比例会更 极致, 达到了7 比1的一 个比例, 所以它更 省KV Cache, 所以我们 基本上是 在这一代
结构上实 现了, 通过Si ding Window Tens ion去 减少KV Cache, 让它在长 稳上效果 更好, 能够支持 更长的长 上下文
然后同时 通过MTP 把Sid ywin d的au toma tion 节省的那 个算力 节省的那 些aut omat ion的算力 然后把用 MTP给 它填上
这样子它 能达到一个 在实际推 理的时候 这个仿存 跟计算的 一个很好 的平衡 然后同时 又去兼顾了 呃 呃 长上下温 的成本 然后以及 它的推速度
所以 嗯 虽然我们 设计模型之后 没想那么多 但是基本 上就完美的 非常适合 做Ageno 因为Ag eno 对Age no来说 长上下温 非常关键 然后很小
的QV cach e也很关键 因为 哎 你很小的QV cache 你能做更多的 多节的缓存 缓存命中的话 会非常有 利于节省你的 呃 推理的成 本,然后 再起次又
是速度是 一个还蛮 关键的一 个命题, 然后你一 旦体验到 了更快的 模型,以 及智能水 平相当的 更快的模 型,你就 回不到那 个更慢的 模型的水 平了。
所以我觉 得MIMO V2 Flas h和Pr o大概是 这样在这 样一个背 景下我们 同期的开 始去进行
训练的。
放在当时 ,你当时 为什么会 选择MT P啊?
然后我们 在我们自 己的那一 代的推理 卡上去实 际的去设 计推理的 并行方案 的时候发
现它的 计算剩余 的实在太 多太多了 就我们没 有想到它 会剩余这么多 然后所以 那你就想的是 怎么把这 些剩余的计算 给它有效 利用起来 那么MT P太适合了
But the reason why we added MTP during the pre- trai ning stage is that it
can indeed impr ove the abil ity of the mach ine.
This is the same as Deep Seq.
Pre- trai ning and MTP are beca use MTP can impr ove its abil ity to
make mach ines.
The reason why we only use MTP during the push is beca use our model stru
cture is natu rally rich in comp uting.
This is what we sudd enly missed when we desi gned the push stru cture in
the back.
但是也不 是突然有 天,就是 你去仔细 地去算, 算那个推 理的各方 面的一些 数字的时 候你就知 道,然后 你可以用 推下边吧 ,然后把 这些生命 的算力给
利用起来 ,恰好我 们又训了 MTB3 ,那恰好 用起来了 ,就其实 很自然的 一个探索 的眼神。
为什么它 还没有成 为一个主流?
大家太...
相信MA了 我觉得 大家太相 信MA了 就是大家 因为MA 它确实太 巧妙了 就它在模 型结构上吧 它能做到 的全做到 极致了 所以在我 觉得二五
年上半年 如果要去 训模型的话 训练一个 机座模型的话 那么其实 MI 确实是一 个不错的选择 尤其是当 没有看到 Non- convex 的价值和 agent 的这个范
式的时候 MI 确实是一 个非常不 错的选择 对 那它未来 会成为主流吗 你觉得?
我觉得应 该不会。
还是不会?
MA应该 不会。
我说MTP。
MTP如 果说,就 看大家的 下一代模 型结构是 什么样。
我觉得现 在模型结 构设计大 概有两个 趋势, 一个就是 你真的在 运训练阶段, 你就想明 白你后边 推理的场 景是什么。
For exam ple, what card should you push on?
And how many times should you push it?
What is the method of your reas oning?
You may even have to think about this.
Then you can design a perf ect stru cture for this scene, this reas oning meth
od, and this chip.
Then you go to train this stru cture.
Then its effi cien cy, cost, and all aspe cts must be the best.
AMA is desi gned under such a cont ext.
But...
This cont ext is based on two main crit eria.
The first one is that post -train is not impo rtant.
Or the post -train time is very short.
You can finish post -train in a month.
You spend most of your time on prin t-tr ain.
So you only need prin t-tr ain for the push itse lf.
The second is that your push card is always used in such a way 一个两个 ,甚至有
那一个就 是最好的。
但这个事 儿在当下 是在发生 了巨大变 化的, 因为现在 是Pos ter Trai n的周期 在拉长, 你在一代 技术上能 做到Po ster Trai
n的上限, 是远远被 激发出来的。
这是什么 时候发生的?
就是A- Gene 的这个范 式带来的。
你有一个 更高效的 cont ext的, 其实co ntex t越长它 也是产生 智能的方式嘛 你的模型 能够被输 入进更多 的con text 理解更多 cont
ext的时候 那么你的 潜力就越高 这个跟原 来cha rt的这 个方式是 完全不一样 原来ch art的方式 它的co ntex t就是人数的 人数的就 是很短 所以它纯
靠这个预训链 但是Ag ent这 个范式他 就是很吃 Post -Str eam 你对于框 架理解 对于怎么 去所有多 元型的协 作那些法 则也好
反正他你 肯定以为 就是我们 在Pos t-St ream 上要去投 入的算力 会可能跟 Prin t-St ream 是相当的
So
如果还是 这样去做 模型结构, 它可能会 失去一定 的灵巧性。
嗯 但是呢 如果说他 的这个团队的 Post -Train 的效率足 够跟得上 嗯 他的认知 是能够 这个 Post -Train 的认知是 能够辅助
Print Train 去做架构 的正确的 判断的话 那么有可 能这种模 式还是 Work 的 就他设计 一个精细 的结构 想清楚推 理卡类型 想清楚场景
那么他应 该还是 Work 的 对 然后 嗯 但还有一 种做结构 的方式是 另外一种, 就是我在 结构上更 简洁一些, 然后留有 更多的富 裕度,
来去做后 续在不同 场景的一 个适应和 增强, 就比如说 我觉得H ybrid Tens ion, 它就是一 个更简洁 的结构, 你可能它 的简洁性 体验在,
你可以靠 MTP去做, 去把它的 这个算力 给它, 来做一个 更简洁的 结构, 更充分的利用 对 然后也可 以是后边 你甚至于 针对已经 训练好的一个
Hybr id的结 构去增大 Spots for the比 例等等 反正就我 觉得在这 样一个 更简洁的 架构上的时候 其实你已 经能发挥 的空间反而
在后训练 发挥的空 间反而会更大 成本下降 是MTP 给NAS Token Pred iction 带来的优势吗 MTP是 如果它的 命中率非 常高的话 那么它是
可以带来 成本的下降的 相对于它 在更短的 时间内 吐出了更 多token 所以它把 GPU的 利用率打 得更高 所以它本 身上是在 降低单t oken的 伸展了成本
你刚才说 了MTP 的很多好处啊 那它会相 应的带来 一些幻觉吗 不会 MTP它是 因为它是 会被ve rify的 然后只有 你预测的准 我才会踩 烂你当前 toke
n的结果 所以它没 有任何幻觉 好 刚才我们 重点聊的是 Flas h上面用 的MTP 那MTP 你们还做 了一些选 择,就比 如说混合 注意力机 制,你们
当时选的 是五层滑 动窗口和 全局注意 力机制, 你们这次 其实有变了?
应该说是 这样子, 可能我们 的一个大 致的大量 的实验的 一个结论 是说, 服务腾讯 它的层数 很重要, 但是它的 系数比反 而可以有 空间,就 比如说,
嗯 atte ntion
to head 的时候可 能我们也 可以做到 跟稀疏的 一个比例 对应该是 这两个简 论的一个 统一对导 致我们可 以在更大
的模型上 做更高的 稀疏比就 是富尔跟 斯泰尼云 的稀疏比 然后我们 最近在做 很多SP AS的研 究也是发 现更大的 模型它能 够吃更大 的att ention
to spas ity的 比例对就 更大的模 型可以更 稀疏然后好 但你小的 模型你太 稀疏了 你就模型 效果就会 drop
得非常严重 对 所以这是 一个实验结果 它不会成 为一个固 定的标准 这是我们 的实验结果 然后我不 确定其他 家是不是 也fol low 也赞同同样的
也会有同 样的实验结果 对 我觉得F lash 还蛮有一 点小米早 期的风格的 因为就是 追求极致 性价比嘛 这个是怎 么定的呀?
因为你们 当时AP I的定价是 输入是百 万tok en1.
01美金 然后输出 是每百万 toke n0.3美金 在当时看 来肯定是 最低的价格 最高的速度 你觉得当 时是做对 了什么 达到这个 效果?
对 Basi cally, we did ever ything we could.
We have a non- class, very effi cient arch itec ture.
Plus MTV can be acce lera ted.
And then we did the basic infr astr ucture of Infer.
Basi cally, we can do this.
I think in the pre- trai ning era, based on the model, 框架优势 来定价 确实是合理的
因为你的 框架很强 最终使用者 最终用户 能感受到 其实纯粹 是因为你 的模型很强 所以我就 按照你的 模型结构 的方式来 去进行定 价,我觉 得是合理的。
但是当我 们进入到 后训练的 方式,然 后后训练 的方式是 除了这个 模型结构 本身带来 的优势以 外,你还 看你的c onte xt好不好。
以及你这 个模型对 这个co nveyor 理解能力 好不好 所以我觉 得它的定 价逻辑应 该发生变化 就不应该 是根据我 最终的这 个推理成 本来定价 而应该是
根据我这 个模型的 最终产生 的价值来 进行定价 那么这个 价值除了 模型本身的 I think that's the adva ntage of the
arch itec ture.
And the model has done a good job on the back -end chain, so it can
better unde rstand the fram ework.
This is also a place where it has a price range.
So we, MemoVR Pro, actu ally aban doned such a pric ing logic.
I saw Flash in your attack plug.
Did you want to bet on reas oning, codi ng, and agen tic from the begi
nning?
I think I should not be too 至少我们 那时是想 不到更多 的目标的。
我也不认 为一个价 格本身的 目标应该 太过复杂, 因为价格 目标太过 复杂, 就是你的 限制条件 太多, 那么如果 这些限制 条件最后, 你的po st-t
ree要 做很久, 做到这些 限制条件 ,它都变 成很伪的 限制条件, 那你这个 结构不就 白做了吗?
对,所以 我们没有 对最开始 的模型结 构给强加 更多的目标, 我认为加 更多目标 是不合理的。
Flas h帮你验 证了什么?
Flas h帮我们 验证了我 们整个i nfra -s数据 是没有问 题的, 但是我们 并没有说 先训fl ash再 训pro ,是两个 一块训的。
但fla sh是一 个相对小 的工作, 比较早期。
也不早起 ,我们训 练就发了 ,所以你 们看到的 时候,也 就是我们 ,对,没 有归还很 早,我们 基本上大 部分的模 型训练都 是在下半 年进行的 ,对。
训练的下 半年,从 slas h到pr o,你对 pro的 预期是什 么样的呀?
当然那是 同一时间。
对,就是 两个模型 同步训练, 我们相信 这一代的 架构是没 问题的, 只是我们 在训普洱 的中组的 过程中, 去解决了 非常多的, 比如说训 练数值的 不稳定性,
对,这个 是训跟E T参数量 级的模型, 通常会遇 到的很s trug gle的 问题, 对,老训 训训着l oss spike, 老训训训 着ok,
某个激活 值很大, 然后那你 要考虑怎 么去, Or some expe rt's dist ribu tion beco mes extr eme.
Like a ceil ing, a batch of tokens will go over, and anot her batch will
go to anot her expe rt.
It's very dang erous.
These sign als are dang erous.
It will cause trai ning to appe ar.
For exam ple, lots of spikes will appe ar.
The supply will be very unba lanc ed.
The supply of expe rts will be very unba lanc ed.
然后这些 要素就会 非常锻炼 一个团队 的音法。
和算法中 联合de bug的能力 甚至有时候你 怀疑到是不是 哪个卡有问题 就是最后 如果发现 所有的卡都 排查了没 有问题 你会怀疑 是不是今 天的太阳 黑暴风
就你会一 直怀疑到 一些很玄 学的问题上 就你要从 很表层 然后查到 很底层的因素 对 你刚才也提到 ET的模 型可能是 未来竞争 的一个入场圈 是这样吗
It's an agent.
You have to do it close to the 4.6 Ops level of Cloud.
You didn't have this model when you were at Lixi ang, right?
Why did you think it had to be ET?
First of all, I've trai ned a model with a deep -sea V3 of this size,
more than 600, more than 700B.
You don't want to train the same model again.
It must cont inue to go down.
So ET is a...
a...
嗯,在我 们当时也 有的卡的 数量情况 下的一个 比较极限 的一个区 间,对, 嗯,是多 少卡?
几千卡, 反正,迅 这个模型 是几千卡 ,但实际 上我们要 投入大量 的卡去做 研究。
嗯,所以 其实实际 上的研究 的卡会是 实际训练 卡的几倍 ,训练比 如说Mimo VR Pro和 Flas h,其实
各自训练 可能几千 卡就够了 ,但实际 上你去投 入做模型 研究的卡 会是这个 卡的很多 倍,嗯, 我觉得三 到五倍是 一个更好 的区间。
嗯 就是不管 是你前期 的结构的研究 然后中后 期的po st-t rain 的很多算 法上的研究 所以不是 说我们拥 有几箱卡 就足以去 做这个事情
而是说 至少我觉 得在卡的 资源和储备上 目前来看 尤其在a gent 的范式下 其实卡的 数量反而 变成一个 非常重要 的一个瓶颈 因为id
ea的 《大生》 和这个《 大生》 动手,你 把它代码 写出来, 太快了, 然后你现 在卡在什 么呢?
卡在卡上 ,因为G PU它的 效率就在那, 所以你要 为了去验 这个ID 而去跑实验, 然后你要 并线的起 很多实验 ,所以卡 在卡的瓶 颈上, 所以现在 卡反而变
成一个更 关键的一 个制约项, 当然这只 是for 训练,那 for推 理的话卡 更是一个 更关键因 素,对。
对,就推 理卡的需 求让语言 比训练会 更高很多。
训练、推 理和实验 这个最好 是几比几?
推理看看 用户数。
Or you can look at the token count cons umed by high -value scen arios.
So many scen arios are just a matter of time.
So let's look at the reas oning.
If we look at it this way, for rese arch, for print and for post -tra
in, I think a reas onable card ratio is 3:1:1.
How much is the ratio betw een the pre- trai ning and post -tra
ining?
At least in the curr ent era, it's a very exag gera ted ratio of 3:1
to 5:1.
This is a big change that might happen this year.
Many teams should be 1:1.
The top teams should be 1:1.
What is the chal lenge of trai ning a one- on-one model?
I think it's a full -scale chal lenge.
Basi cally a full -scale chal lenge.
数据上其 实反而不 是非常大 的一个挑 战的原因是, 更大模型 ,貓似對 於更髒的 數據的容 忍程度更高。
但是呢, 但是我不 確定,對 ,我不確定。
因為我們 是同一批 數據訓導 ,所以我 不確定。
我只能說 貓似。
然後應該 更主要挑 戰的是, 你在訓練 的歷程當中, 遇到問題 的時候, 你怎麼去, 我覺得第 一不是你 要發現問題, Right.
For exam ple, many teams will take loss spike as a normal thing.
But we might try to make it with out loss spike.
Right.
We think loss spike will defi nitely lead to some upda tes that are part icul
arly unst able.
Some values are very abno rmal.
We will dire ctly give some para meters or some expe rts to it.
After the para meter upda te, there will be no more tokens sent to XBird.
So you need a very strict moni toring system in the midd le.
You need to check what kind of chan ges have happ ened inside the model para
mete rs.
You need a moni toring system like this.
For exam ple, you need to see how XBir d's load is.
How is the input and output of each para meter?
Has its acti vation value become abno rmal?
These are things that you should look at after the Nort hpac inci dent.
But not all teams will look at it that clos ely.
This is the first step I ment ioned, to find out the prob lem.
Many people might not take it as a prob lem.
After you find out the prob lem, you think about what kind of reason it is
that leads to such a prob lem.
For exam ple, it could be a pencil case.
太高了, 导致比如 说负二层 输出跟s etting wind ow层的 输出是至 少数值上 的差异是 非常大的 ,那么这 数字上的 很大的差 异就会导
致一些数 值不稳定 ,有可能 是结构的 原因,也 有可能纯 粹就是i nfra bug, 比如说你 哪通信的 某个算子 写错了。
We found that there might be some prob lems with the long.
The best solu tion is to clip the long to the long if the number is
too large.
There are many solu tions.
For exam ple, if you use LOM, I think it will defi nitely cause damage to
the model.
Clip is a way.
For exam ple, we will also use QK Clip to reduce the KB.
When QK's logics are very large, it really affe cts the trai ning stab ility of
the model.
You can only clip it.
At least this way, you can make the trai ning go bett er.
When it comes to a stable state, you let it go.
这些路径 其实是非 常考验一 个团队的 跨团队, 其实如果 是在一个 很大的公 司,它就 是跨团队 的协作, 但这个协 作效率是 极低的。
你们属于
哪一边?
We are defi nitely a very extr eme type of team.
So it will lead to the trai ning cycle being prol onged.
The trai ning cycle will not be comp leted in a month or two.
So in the case of the trai ning cycle being prol onged, 如果说有 一个非常 明确的一 个dea
dlin e目标什么的 那你肯定 就承受不 了这样的 因为比如 说大气线 卡你停一天 肯定就是 一两百万 两三百万的事 对 那么你怎 么去承担 这样的一
个损失 如果是在 一个目标 驱动的一 个团队 可能会觉得
-
没有公司 来的压力吗?
没有,没 有人来的。
因为你们 确实不是 一个创业 公司,对吧?
不是一个 创业团队。
但实际上 它就是一 个创业团队。
我觉得M IMO和 还有包括 Micr o能做成, 其实都是 以创业的 方式在运 作的, 所以它才 能做成。
选一个一 体的模型 对你的管 理难度是 不是指数 性的上升?
How big is the trai ning
team?
很小的, 我只说训 练这个事 儿本身, 但你做数 据还需要 那么几个人。
也是几个人。
对,几个人。
还需要什 么吗?
可能还需 要一个非 常好的基 建团队, 就是你肯 定就会把 ...
...
把卡给集 区给搭起来。
这个…… Is it Infr a-2团 队吗?
嗯,这不 是Inf ra-2 团队, 这个就是 基础设施 团队。
然后这个 团队可能需要 有那么一 点需要有 经验的人, 因为没有 经验的人, 他们会出 一些低级 的问题,对。
吃一些基 础的运维 设施的经验。
那你们的 诀窍是啥呀?
哦。
本身我也 没有觉得 它是需要 一个非常 大的团队 协作的事情。
我觉得团 队协作当 然有优势, 就比如说 大家在卡 资源巨量 的情况下 可以并行 的去探索, 对做研究 来说是有 优势的。
但是我并 不认为它 对我刚刚 说的那种 场景发现 一个, 可能是问 题的问题 ,然后去 深入排查 原因去解 决它。
我并不认 为他对这 种模型训 练进程中 遇到的问 题是很大 的团队是 优势, 反而很大 的团队有 可能是劣势。
训这个模 型过程中 你有团队 状态是什 么样的?
团队状态 是原来做 数学的那 一群人, 就去做后 训练的。
做inf er,做 训练框架 ,做推力 infer人 一块来去 解决训练 过程当中 的问题 这是为什么?
这是为什么?
为什么有 这个变化?
就是为什 么预训练 的人要去 做后训练?
很多样的原因 首先后训 练的一大 部分的原因是 你需要有 很好的数 据知识 这还是蛮 重要的 其次就是 其实它是 基于个人 爱好兴趣 产生的。
对,它不 太是基于…… 基于你说 ,我们这 里需要人 ,你转一下。
不是,大 部分是在 自然发生的。
但是我确 实能够预 料到哪些 人会做这 样的一种 潜移, 因为有很 多能力特 质上是很 共性的, 就比如说 对数据的 直觉, 比如说会 从模型效 果去分析,
去倒推一 些算法的设计 其实做数 据好多时 候也是在 干这个事 所以可能 我觉得主 要原因是 我们对人 的界定没 有那么清晰 所以大部 分人他会 自然随着
训练阶段 的变化 自由地去 选择下一 个阶段 更有想象 空间的事情 对 你们现在 是一百人吗 我记得上次聊 嗯 现在已经 到一百人 但是这一 百人是包含
嗯 就是 嗯 所有链路 上的人, 就所有链 路,比如 说数据采 集,数据 质量,p rint train, the info,
poster train, 然后包含 甚至我们 的开发, 我们需要 有一些开发, 还有包含 我们的产 品,包含 我们的数 据白小生, 还有包含 三个方向
上的算法 工程师, 大致你可 以发算, 就是语言 ,多么态 和语音,对。
然后这里 边一百个 人里边 实习生的 比例是很高的 然后有部 分实习生 可能是在 做一些 更...
更...
当下不会 立马反映 到这一代 模型结构 上的事情 模型能力 上的事情 所以其实 真正投入 到一代模 型里边去 迭代的人 我觉得是 很少的 可能所有 联络上加
起来也就 二三十个人 三四十个人 对 最多也就 这么多人 二三十个人 二三十个 人比较均匀 对 这里没有组 不同的组 的划分吗 没有 没有组 没有组的
所以你一 对一百 差不多,是。
为什么没 有组的划分?
比如说为 什么不分 预训练组 ,不分后 训练组?
因为很多 人他会对 两个方向 都感兴趣。
如果你组 划分得非 常的清晰 和固定的话, 那么其实 是在扼杀 一部分人 的创造力, 对。
或说扼杀 他未来的 成长空间。
第二个就是, 嗯。 I
嗯。 I don't think that post -tra ining peop le...
le...
If post -tra ining is a very impo rtant form of chan ge, it needs to have
a dive rsity of care er.
Many post -tra ining people do it in a spec ific cont ext.
They don't have this dive rsity of care er.
But as a post -tra ining pers on, the first thing you should pay atte ntion to
is dive rsity.
因为他不 能往这个 模型里边 塞一小部 分数据 他要塞多 样性跟好 的数据 所以其实 作业训练的人 去做后训练 有非常大 的优势 就是他会 天然跟在
乎多样性 然后他就 是个很好 的补充嘛 它就是个 很好的补 充,当然 也有人他 一直做后 训练,比 如他只研 究小黄蟹 ,所以他 一直做后 训练,或 说叫me
dita tor, anyw ay, 至少我们 不要在组 织结构上 去给某些 ,按场景 来把某些 人的,我 认为是创 造力给他 扼杀在这
个场景里边, 那就很奇 怪,在我 来看,对。
没有组也 就没有l eader。
本来我们 这个团队
的整个的 组织结构 就是完全 结合的。
没有直级 你觉得对 于做AI 很重要是吗?
做大模型。
没有直级 ,没有组。
对于智能 涌现本身 的意义是 什么?
我觉得平 权本身是 有价值的。
就是平权 本身是有 利于所有 人去平等 地贡献自 己的创造 力和智慧。
我觉得是 有价值的。
任何层级 应该一定 程度上都是在
Right.
这个很奇 怪,这个 界定非常 奇怪。
我觉得不 太会存在 有,对。
所以反而 更扁平, 然后尤其 是对于最 重要的那 个lea der人, 他不要有 特别强的 这种掌控感, 然后以及 这种觉得 没了我就 不行, 这种我觉 得如果一
旦有这样 的一个想法, 反而不是 很有利于 一个创新 团队的发生。
那虽然你 说没有管 理啊, 那实际上 怎么管理呢?
你有什么 驱动热情 的方法?
让大家认 识到一个 新的事情 让大家去体验 其实是驱 动他热情 非常重要 的方式 比如说O pen Clou d这是一 种体验方式 你看起来 用了一个
非常极端 的方式 说你没有 一百轮的对话 你明天就辞职 这是一个 非常极端 的方式 但是你的 目的是体 验是吗 对 我也不会 追踪去考核 我第二天
也不会去 考核大家 说OK你 真的有没有用 因为我觉 得那不关键 我只在乎 你有没有 真的去用 这个动作 是不是真 的达到一百轮 那只是一 个量词而已 所以你还 有什么用
热爱驱动 大家的方 法体验 其实筛选 人的时候 也很关键 就是很多 人你可以 从他过往 的经历看出来 他到底是
怎么明显?
我没有办 法,就是 有很多量 化指标, 但是我去 跟他聊天 ,我能直 接感受到。
就是能s ense到。
对。
你们在这 个ET的 模型的训 练有失败 吗,还是 一次就成 功了?
嗯,就是 看怎么定 义失败, 就比如说 你训到l oss直 接飘了这 种,那应 该中途还 是发生过 那么几次的。
几次啊。
几次,我 现在都不 知道几次 了,反正 两三次总 是有的, 对,就落 死直接飞 了,然后 ,但是他 训了,比 如说,训 了几百步 ,又回来了。
那你说这 种情况你 是应该停 下来解决 ,还是应 该继续往 前训呢?
解决?
我们认为 是应该要 解决,就 应该停下 来解决这 个问题,对。
她其实就 这样, 呛上去, 几块不维护, 然后又这 样下来。
我们认为 应该停下 来解决, 所以就会 停下来去 解决她, 让她诺瑟 更平稳地 度过。
一般会停 下来几天?
这就不好 说了。
就几天也 有可能, 一两周都 有可能。
最长的时 候有两周。
停两周焦 虑吗?
不焦虑, 因为我们 又没有什 么目标。
当然了, 你那么多 卡,你天 天做一堆 实验, 今天我想 这么去排 查都, 感觉是这 个原因了 ,快改了 又跑, 排查第二 天看又这 样子, 或者晚上
,反正晚 上都睡不好, 然后我经 常晚上做 梦说, 为什么l ost your spike, 我烂几天 晚上脑袋。
所以参数量
能决定智 力的上限吗?
就是越大 的模式越好?
我现在觉 得是参数 量加上c onte st本身, 对,就这 两个是共 同决定的, 但至少要 达到当代 大家觉得 最强的a gent 能力水平, 我觉得一 定要一体
以上的参 数规模才 能做到, 才能让大 家觉得你 已经非常 接近于4.6 OPS 这样的事 但我不知 道它多大 我只是觉 得我自己 认为至少 要ET以 上才能做到
总参ET以上 当然更激活的 更关键的 还是激活参数 对 所以 但激活参 数越大 比如说你 总参都是ET 你激活参 数越大 就意味着 更高的推 理成本 对
所以它就 是一个t rade off嘛 嗯 为什么从 5比1提 升到了7 比1?
就是混合 助力极致。
我觉得我 们追求一 个更极致 的一个系 数比, 就是Fu ll跟S plit Wind ow的一 个系数比, 最主要一 个原因还是, 我们希望 在更大的 架构里边
去做更高 效的no n-co ntest, 对,因为 更大的架构, 如果你的 Full Tens ion的 层数变多了, 如果你的 总餐变多 ,你的负 额吞选的 乘数也随
时变多, 那么其实 在常文的 情况下, 它同样会 变得非常 的崩溃, 因为你的 负额吞选 的乘数变 多了。
但如果你 扩大参数 量的时候 ,你的负 额吞选的 乘数没有 变,那么 有可能...
有可能...
也有可能 你的长文 Pro跟 Flas h两代模 型是效率 是差不多的, 但是它的 Pro的 智能水平 是提升了的。
所以我们 希望在一 个长文的 效率相当 的情况下, 我们希望 它模型在 Scan ning 它的水平 的上限。
所以我们 是比较去 控制住这 个效率本 身的。
但是控制 住效率本身, 后面在一 件事实在 也有一个 更有价值 的事情就是, Since the upper and lower parts of the
large model are very effi cient, I can put more upper and lower parts in, which
makes it stro nger.
So that's prob ably the back ground of such a deci sion.
For the ET model, your deci sions are first of all, the mixe d-st ruct ure
mech anism we just talked about, and then the upper and lower part of the EM.
Is there a loss when doing this?
- 这个很难 找到这样 的数据, 或者说这 样的数据 的构造的 成本非常
的高, 构造成本 非常高, 所以就是 ,其实你 要站到中 级的思维 来看, 你只要有 ,比如说 ,你如果 你有一个 ET, So
this is the key to the prob lem.
我们也所 以这个o n-co nvex 的效果是 缓慢在提升的 慢慢去提升 然后你们 还有第三 个就是MTP 这个是延 续的fl ash 这有变化吗 对
没有什么 太大变化 其实就是 预训练的时候 训 - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - 同期,基 本上都是 同期。
都是那个 时候开始 规划的。
对,其实 都是三个 方向,大 概是三个 方向同期 再往前去 推进的。
Flaw 加上Om ni加上 TTS, 它好像整 个的VR 家族是在 指向多模 态的叙事 ,但是它 的模态又 非常的不 一样。
文字是离 散的,t oken 图片是像 素矩阵, 音频又是 波形,你 们怎么去 做这个融 合呢?
嗯 其实我们 还是想尽 量把它统 一到la nguage mode l的范式下 所以 嗯 所以至少 在音频的 建模上我 们想要把 它离散化
变成跟文 本一样的 离散的t oken 的ID 嗯 然后 所以我们 在音频上是 在这个事 情上是投 入了比较 多的研究的
嗯
嗯 让它开始涌现 如果你基 于连续的 特征做
可能很快 就涌现了 但你基于 离散的特征做 你会更难 去建模 它的涌现 出现的时 间段会更晚 然后所以 我们知道 在音频上 是开始了 这个尝试 然后也会 牵引到后
边的其他模态 就我们还 是就比较 想用一套 更优雅的 架构来去 做整个 多么太疏 乎的一个 理解, 但是我们 不是为了 统一而去 做这整套 架构, 就很多时
候如果说 我们发现 确实, 比如说在 图像上, 离散确实 是不那么 可行的时候, 那么我们 还是会寻 求到一种 说目前, 更主流的 一种架构 里边去
因为我们 优先要保 证的是 这个模型 它要具备的是 一个整体 的一个智 能水平 而不是追 求为了统 一优雅
-
能,我们 已经尝试 了非常长 一段时间了。
所以你们 能用LM 作为一个 统一的方式。
对,但是 它其实是 一个权衡 ,就是就 像我说的 ,你要做 到真的无 损的一个 重建,是 需要投入 更多的算 力,更长 的研究成 本在的, 它是个权衡。
至少在音 频上我们 已经卖过 去了。
图片呢?
卖过去了 没有?
图片正在 进行中。
不知道能 不能卖过去。
如果卖过 去,这会 带来什么样?
这会带来 更大的想 象力吗?
更优雅的 结构。
我最开始 是认为, 如果我们 把它统一 都离散化, 那么我们 可以用一 套基础架 构去解决 这个问题。
同一套运 训的基础 架构,同 一套做R 的基础架构。
它太简洁 了,这是 如果真能 做到的话。
但是我现 在发现一 个问题是 ,当我们 有Cor elCo de和顶 尖的模型 过后, 这些架构 ,比如说 我们重新 去写一套 R-In ferr ed架构,
重新去写 一套纯凌 Infe rred 架构, 我们最近 就已经完 全在从头 去写一些 新的架构。
我原来以 为写这些 架构蛮耗 费人力, 蛮耗费时 间的,但 是现在看 起来在一 金的支持 下,写这 些架构的 时间被大 量缩短, 那你其实 就没有必 要为了架
构的优雅 性去做很 多为了统 一而统一 的研究。
这是最近 的变化, 一个月内 的变化。
但是之前 你是希望 同意的。
对,执念 ,就之前 是来自于 这种NO P的执念 ,就所有 东西离散 ,优雅, 监督性好 ,更清晰 ,然后你 可以做N TP,做 List
of Impe diti ons,然后 You can use all the curr ent infr astr uctu
re.
How cool is that?
But now, if you look back, it's not that comp lica ted to rewr ite infr
astr uctu re.
And then a few people might be rely ing on it for two or three weeks.
You can re-p ick a new R5 fram ework.
Why do you have to sacr ifice the unif icat ion of the infr astr ucture
stru cture that I trai ned later?
Let the prev ious model stru cture sacr ifice so much.
但是Om ni在做 的时候, 它是走了 一条有别 于分别处 理哥摩泰 在拼接的 路线,对吧?
它是构建 了一个统 一的,试 图构建一 个统一的。
倒没有, 我们Om ni的整 个VIT 的VIT 上只是去 做了一个, 它还是一 个VIT ,只是我 们把它变 得更高效了, 它变成了 一个Hy brid Sett
ing Wind ow的一 个VIT, 对。
但是我们 表征本身 并没有做 太多的变化, 就它还是 一个连续 的一个表 征,并没 有做太多 变化。
为什么你 们叫做全 抹态而不 是多抹态?
就是因为 它确实是 支持视频 、音频、 图片 文本 所有的模态 然后有一 些Age ntic 的模型是 不支持音 视频的联 合理解的 然后它应
该是第一个 第一个支 持音视频 联合理解 并且Ag enti c的能力 能够做到 跟9G mode l的水平 差不多的 是不是有 迹象能表明 这种全模 态或者多
模态的理解力 能够产生 智能啊 两个月前 我很相信 然后最近 呢,就是 在反正在 训OMN I的整个 过程当中, 就是稍微 有点被, 就是稍微 有点质疑 这个事情
,对。
但是我们 后面还是 发现了一 些很好的 迹象, 就是比如 说,Me moVi r,OM NI它其 实是比P ro小的, 但是大家 实际去用 的时候会 发现,
这个OM NI的这个, 因为他是 远生动物 ,他训练的。
所以我猜 测可能是 因为我们 在这两个 方向上s kill 的,就在 纯语言上 skil l的算力 和纯原生 动物态上 skil l的算力 还不那么 多,可能
导致我们 现在并没 有看到原 生动物态 有那么强 的一个动 物态本身 带来的一 个智能的 很大的一 个提升。
你能感受 到就比如 说很多世 界知识他 跟他因为 他训过视 频所以他 他知道了 更多然后 他对很多 很细微的 东西的感 知力你会 发现他更 强但这些 都是很虚
的都是我 们自己去 实际体感 去测感知 力对感知 力会更强 但是你在 任何本区 码上你是 没有任何
-
游戏赛A gen的 这样一个 可以把多 个模型的 能力给非 常优雅的 编排到一 起的场景 的情况下 我觉得我 们根本没 有必要去 非常去强 调多么太 之中是不
是促进智 能这个事情的 就是这个 它有没有 促进智能 这件事情 本身不关键 那多么太 带来了什么 嗯 就我刚刚 那两点, 我觉得目
前我只观 察到了这 两点, 我现在还 不知道未 来会不会 带来, 在一套新 的架构上, 会不会有 一些新的 东西, 我觉得可 能做多么 太深层, Mayb
e会有一 点点不一样, 就是会深层, 它可能会 促进更好 的感知, 但是你要 是纯说把 你的感知 的维度给 它扩大, 可能你是 不太会促 进智能的。
但是如果 你能生成 ,它ma ybe是 能促进智 能的。
这是我的 一个猜测。
但是生成 现在还是 一个科研 问题。
或者说把 生成跟理 解做到一 个统一的 架构里边, 目前还没 有给你到 非常大的 算力。
嗯,那你 对于Om ni这个 模型的目 标是什么呀?
就是你设 计它的目 的是什么?
我觉得截 止到目前 为止, Agent 他要行动, 他是必须 要具备多 种模态的, 其实是这 样一个目标, 但下一个 目标我觉 得不是这个, 就下一个 目标可能
还是想去 探索到, 说当你结 合多个空 间的感知, 甚至你能 去生成更 多的多模 态的信号 的时候, 你会不会 促进你对 这个世界 的理解?
对, 但它就需 要有一个, 更直白地 说,它可 能就需要 有一个跟 现在的A gen的 框架交互 的更好的 一个视频 生成的模型。
对。
为什么你 们没有披 露Omn i的总参 数量和激 活参数量?
留个...
你有点想 象空间, 给我们留 点想象空 间,就是 我们相信 这个参数 量可能能 做到更接 近于pr o的智能 水平,虽 然大家知 道它比p ro小一 些,只是
小一些是吗?
对,然后 但是我们 相信他们 俩能够互 相迭代, 我们希望 他们俩能 够互相, 你提升我 ,我提升 你,我们 希望这么做。
它和pr o谁更重要?
当然Pr o更重要。
但是就是 纯语言空间去 做通非常多的 前置的研 究是更重 要的。
那关于T TS, 有什么值 得花重点?
我觉得T TS就是一个 我觉得我 们做DT S的东西 是我们想 用我们自 己认为一 套优雅的 架构去做 一个大家 都用一个 传统的架 构做起来 很容易的 一个事情。
哦,其实 你在试这 个是。
对对对, 然后,但 是我们在 这个事做 完过后, We found that after we trai ned a disp erse toke
nizer in a data set of tens of thou sands of hours, we found that 这个模型 的泛化力
是非常好的, 但是我没 有办法去 对比说, 我们去训 一个很小 的模型, 它泛化力 是不是真 的没有这 个好, 至少我们 目前得到 这个模型, 大家能看到,
你在给它 输入很多 风格化, 多样的风 格化的标 签的时候, 就不管是 它会更智能, 就是它会 看到你的 这个字本身, 它会更通 过推测你 自表面的 含义去赋 予它的情
感和音律 对 在这个事 情上的泛 化性上我 们是发现 特别明显的 因为我们 只是简单 的做了一 些很客定 的几个 场景的风 格的数据
做SFT 和RO, 就是很刻 板的几个 风格化的 场景, 就是比方 说它快点 慢一点, 高兴悲伤, 这种很刻 板的风格 化的场景, 去做了这 种风格化
的Pos ter Tree, 但是我们 发现, 你把那个 styl e的标签, 给它变成 一些非常 复杂自然 语言的描述, 它也能够 遵循,这 是它纯文
泛滑出去的。
这是我们 在做这个 的时候发 现到这种 简洁的架构, 加上超大 规模的训练, 带来的一 个超强泛 滑力的一 个外化的 表现, 但还很初期。
所以我们 这个TT S模型, 我认为效 果是非常 惊艳的, 也就是说 它的上限 是非常高的, 然后当它 下限,我 们现在再 慢慢地去,
嗯 你之前在 一个发布 会上画过 一个通往 AGI之 路的图,
然后你对 比了人类 的智能, 就是一个 生物演化 的路径, 它是一个 正三角, 然后倒三 角是一个 现在AI 的发展, 你觉得A I发展是 一个空中 楼阁,因
为在人的 进化中最 顶端才是 语言,但 是AI大 元模型极 大的放大 了最顶层 ,所以它 是一个倒 三角形, 你觉得怎 么能够拼 接出这个 AGI之 路的图,
你现在做 的事情在 往这条路 上走吗?
但是大模 型它好像 一开始上 来不是为
了生存,对。
她以...
她是为了 什么?
我不知道 现在大模 型有没有 自己的价 值观, 但是我们 要硬给它 赋予价值观, 就是让它 替代一部 分的人, 但它好像 不替代它 也不会死 掉吧, 它没有这
种生存的 危机, 所以大模 型它可能 更...
更...
我觉得它 会...
会...
当没有生 存的危机 的时候, 它反而会 进化得更 自由, 然后...
然后...
更散漫 更有创造力 对 就更快 更不那么 受约束 以及它现 在的基础 条件太好了 它有那么 多算力可以用 然后它有 人类宝贵 的知识的起点
作为一个 基础的起 点可以用 还有那么 多人帮它提升 所以感觉 这两个环 境完全不一样 所以进化 路径就不 太一样 语言之后 模型的进 化的下一 步会是什么 或者哪怕
在语言里 细分co ding之后 下一步会 是什么?
嗯,co ding 它还是会 有一个它 非常好的 一个主旋律, 就是它要 做一个很 复杂的软 件工程, 一步直达 的开发, 我觉得持 续的时间 越久, 能做的开
发的复杂 度不一定 是代码量, 只要是复 杂度越高, 比如说你 写一个c url算子, 它可能代 码量并不高, 但是你需 要写了去, 调试de bug 看它是不 是在真的
训练中提效 对 真的有效 果的提升 这个验证 的环节有 可能是长的 但是它这 个代码量 有可能是 不长的 总之就是 你要参与 到实际的 这种项目
开发里边 我觉得会 确实是做 code 的一个非 常大的主旋律 简而言之 就是它替 代的程序 员越多 那么这就 是它的主旋律 嗯,然后 再外延到 更广泛的 生产力的
场景, 其实它确 实是需要 借助一个 更强的一 个交互方 式的, 就比如说 飞树呀, 然后Wh atsA pp, Tele gram, 它都是一
个很好的 交互方式, 它是降低 你去跟它 交互的这 个门槛和 频率, 然后其实 一个更好 的交互方 式是, 嗯, 那就它就 有个它自
己的身体嘛 对 它可以到 处移动 所以就是 机器人肯 定还是一个 for 交互的一 个很好的 就是 for 智能体交 互的一个 很好的
必须会涌 现出来的 一个方式 对 所以它肯 定还是会 从屏幕上 跃出来到 我们真实 的空间 那么 但是机器 人它本身 的一个演变的 平景有大
概率可能 是在硬件, 对, 上次我们 也聊到, 就是在硬 件甚至在 电池本身上, 当它进入 到我们这 种内部的 封闭空间, 然后甚至 在一些零 巧手的灵
活程度上, 所以这些 都会比A gen本 身的进化, 在语言空 间的进化 要慢。
你之前说 Flas h是通往 Agen 的第一步, 现在到第 几步了?
感觉历程 已经到了 20%吧?
20%?
嗯。
今年能走 到百分之 多少?
百分之, 我觉得至 少能到六 十,六七 十,对。
那AGI 很快了。
对,我感 觉两年内 应该能实现。
两年内能 实现就过 后,就是 大部分人 确实会失去 然后生活 模式被颠 覆是更之 后的,因 为生活它 并不产生 生产力价 值,然后 工作是产 生生产力 价值的,
所以你先 会感受到 是你的工 作模式被 颠覆掉, 其次再是 生活。
然后你要 真迈入到 生活被颠 覆掉,可 能就是就 需要更多 机器人。
当然你不 喜欢AG I这个词 ,也没有 一个明确 的定义, 但是我觉 得这里面 ,就是它 的时间线 被提前, 这里面很 关键的变 量就是能 AI逊A I了,对
不对?
这确实是 一个标志 节点,因 为它可以 自体生嘛 ,就是它 应该说它 可以达到 最巅峰的 一群人的 智能。
因为他可 以自己训 练自己, 他就能去 创造新的 研究。
它有做新 的研究的 能力, 这个确实 是它自迭 代的一个 巅峰, 自学习自 迭代的一 个巅峰。
这个会是 今年的大 模型厂商 的一个核 心竞争点吗?
就是你很 难说去4 让AI训 练一个大 模型, 去设计任 务,去针 对,去训练, 因为它是 一个更高 级的目标, 你不会说 一下去卖 了这个目标, 但大家最 终所做的
模型都会 通往这个 目标。
如果你有 最尖端的 模型的智 能力,最 后都会去 干这个事 儿,但是 它不是只 能干这个 事儿。
在两个月 前你认为 AGI还 有多远?
我觉得至 少两年以 上,那会 儿我确实 这么认为的。
你现在觉 得两年以 内了。
你觉得你 们新一代 的这个模 型,尤其 是Pro 和中国的 这一代模 型,你觉 得和美国 代差还有 多久?
I think in China, there are seve ral comp anies that alre ady have ETH on
their mach ines.
Kimmy, and Mimo, and some othe rs.
And these model manu fact urers, I think basi cally, at the mome nt, are at
the top of the world, just like Cloud, Ops 4.6.
I think if the resp onse speed is fast enou gh, it should only be two
or three mont hs.
就不是说 两三个月 过后能追 上两三个 月过后的 cloud, 而是说能 追上当代 的clo ud, 我认为这 个概率是 蛮高的。
um
um So
the Agile fram ework will also impr ove very quic kly in the next two mont
hs.
And then the second is that as the first two outb reaks, the stro nger the
Agile fram ework, the more the abil ity of the model to impr ove, and our
cost is extr emely adva ntag eous, then the demand for推理 will defi nitely expl ode.
I think the space of a few to ten times is very likely to be reac hed
when it happ ens.
那么对于 推理芯片 就会达到 一个空前 高涨的情况。
这样一个需求 所以那么 怎么去在 现有的产能 尤其是可 能大部分 卡点在于 存储上 对 然后产能 的基础上 然后你去拿 不管是自 己制造
还是用到 最先进的 芯片来去 做更好的推理 对 那么就是 一个非常非常 更好更低 成本的推理 就是一个 非常关键 的一个命题 然后最后 就是另外
一个事情就是 更长期的 事情是, 我们肯定 不会在E T的这个 水平上走 太久。
如果要拿 到下一个 阶段的领 先,那么 你就要寻 求更大规 模的一个 scan ning。
那么到底 是去sc anni ng农学 参数量, 还是去s cann ing什 么东西。
然后以及 你要在什 么样的芯 片上去s cann ing。
对,那么 就是当下 立即需要 去决策和 判断的事情。
那么这个 事情才是 决定可能 半年。
或者是大 半年过后 的谁是更 领先的 你现在做 的决定是什么 这个决定 就要防密了 所以我们 现在看到 的所有M IMO相 关都是半 年前的决定 差不多
我看到你发文 发推 说好几个 人都问过 你说为什么 MIMO 团队非常 的迅速 然后你给 了几个关 键的结论 一个是核 心架构与 基础设施
的研究 周期漫长 所以需要 看到回报 的一年前 就具备战 略信念 第二个是 训练后的 敏捷性 是另外一 种能力 然后第三 个是好奇心 就是热爱
是你一以 观之都在说的 你能不能 解释一下 这三点 为什么能 带来一个 超级大规模的 模型的训 练的迅速 预训练因 为它太简 致了,所 以更关键 的事情是 你需要有
一种预测 能力,或 说有一种 战略定性 ,就是你 训练这一 代模型到 底是fo r什么准 备的,这 个事一定 是要提前 一年就要 去想清楚 ,或说半年。
为什么我 说半年或 一年,就 是因为以 前我认为 是一年, 现在我认 为是半年 ,因为A -Gen erat e实在会 加速这个 事情。
总之就是 你要提前 很长一段 时间就要 去想清楚 你这一代 模型结构 在后面这 么长一段 时间里边 它要 干什么 我觉得这 个事得想清楚
否则的话 它就不具 备一个优势 它可能就 是一个很 平庸的模 型结构 一个很平 庸的模型结构 并不会说 带来一个 非常平庸 的模型效果 但是它一 定会带来一个
非常平庸 的成本和 效率的劣势 对 然后所以 这是我认为 就是预训 练或者是 Infer should be the first to do a
lot of thin gs.
And post -tra ining, beca use it is now in the proc ess of being inte
rloc ked with engi neer ing, so a lot of things you can't go ahead and plan
very clea rly.
So this time it's more chal leng ing how we can use this model abil ity
and this set of engi neer ing meth ods to prod uce that kind of chem
ical reac tion.
And then how do you quic kly design a new infra arch itec ture.
Right, here we need to design a new RL infr astr uctu re.
Beca use for Code Math's reas oning, this kind of char t-like reas oning infr astr
uctu re, the core is the engine itse lf, the model engine itse lf.
Beca use the model has to push for a long time, think for a long time,
and then give an answ er.
Right.
This is the prob lem with this RF infr astr uctu re.
As for the infr astr ucture of Agen da, it not only focu ses on the
mode l推力 itse lf, but also the model and Agen da's over lap.
So it is from the RU-A uto推力 engine to the Agenda core, a more comp lex
black box, or maybe a white box syst em.
对,所以 那么这里 边要解决 的INF A上的很 多问题跟 上一个C HART 的时代做 RE这种 CHART reas onin g的时代 要解决的 INFA
问题是完 全不一样 的,所以 需要这个 团队更具 备敏捷性 去快速的 去开发针 对当前这 个时代的 REIN FA的系统。
Right.
嗯。
然后再其 次最后的 一个事情 就是我觉 得确实关 于好奇心 或热爱或 者是技术 的一个坚持, 我觉得是 很多很优 秀的re sear cher 身上的很 多特点,
但你说要 怎么去...
怎么去...
从一开始 源头上去 筛选,然 后管理激 发,然后 最后让大 家去统一 为而着大 部分人所 信仰的事 情去往前 去运作, 它确实是 一个非常 复杂的一 个事情,
然后这个 事情的难 度我觉得 不亚于去 设计一个 非常复杂 的一个a gent 的系统, 所以在这 个事情上 我觉得我 也是在摸 索,然后 我觉得我 更多的是
也是在这 个环境中 去学习, 对,就是 学习其他 人怎么去 在他自己 擅长的领 域然后做 得更好。
所以这可 能是为什 么我最近 对所谓群 体智慧这 种会产生 这种AG I的一些 思考的原 因,对。
你说的群 体智慧是 不是还不 只是一个 公司,一 个团队?
对,我觉 得是全人 类的群体 智慧。
这是Op enCl oud在 做的事情 ,它可能 是引发了 这个事情。
Open Clou d到可能 ,我不知 道它的动 机是不是, 但是至少 它现在让 大家共同 去改进一 套框架这 个事上, 以及在如 此短的时 间内让大 家去做这
个事情上, 我觉得是 有这样的 一个苗头了。
刚才提到 中国美国 的差距, 你觉得中 美实现A GI的过 程会不一 样吗?
坦白讲, 我不是很 了解美国 ,所以我 至少觉得 按照我们 目前的这 一套,在 模型,在 ,应该首 先是前沿 的研究, 其次是模 型的水平 ,然后再 其次是A
Z的框架 ,再其次 是芯片能源, 这些多方 面的角度 上,我认 为是非常 可能领先 的,合起 来非常可 能领先的。
嗯。
但是有了 这套一些 框架过后, 它以一种 非常容易 的交互的 方式, 就自然远 远沟通的 方式, 它就能把 你所有的, 你再去做 这个复杂 任务的时 候的,
cont ext全 部给具备, 并且它还 是所谓越 用越聪明, 就是你越 用你的所 有的智慧, 全部被它 吸纳进去了, 被这个框 架本身给 吸纳进去了, 这还不是 被模型吸
纳进去, 当然它最 终肯定是 变成了, 变成类似 于模型的 参数被洗 来进去了。
对。
我有一个 感觉不知 道对不对啊, 像不像一 个补丁。
我觉得对 于顶尖模 型来说, 它也不算 补丁,对。
嗯,对顶 尖模型来 说它好像 是加油器 ,但对于 中段的模 型来说, 它就是一 个非常好 的放大器。
嗯,嗯, 嗯,就是 觉得,应 该说不是 放大器, 应该说让 它变得很 稳定,变 得在各种 场景里边 都输出非 常好的效果。
但对于顶 尖模型来 说,好像 它是成倍 的放大它 的上限。
嗯,因为 你加入小 米也一段 时间了嘛 ,然后过 去半年发 了好几个 模型,你 觉得过去 半年对你 来说意味 着什么呀?
比如说我 得到了进 步的地方, 比如说我 觉得不足 的地方。
这个问题 真的是。
我觉得这 个时代可 能就是, 我感觉每 天可能都在 否定昨天 的自己。
就不管是 很多做事 的方式上, 还是你对 事情未来 的一些判 断上, 我基本上 都在一直 去否定,对。
我觉得是 在这种否 定当中, 自我类型 和反省当 中成长的。
比如说有 一个什么 地方得到 特别大的 进步,你 觉得?
I think my jour ney is not very clear.
I set some shor tcuts for myse lf.
When I reac hed this shor tcut, I felt like I was impr oving.
But it's just that he's always impr oving.
And then he might be very slow some times.
Some times he speeds up, some times he's slow.
But in any case, he's always impr oving.
So you have to let me find a...
a...
标志性的 事件我自 己觉得我 真找不出来。
但是我感 觉我就一 直悄悄地 在进化。
然后我老 自己这套 系统就悄 悄地在进化。
有什么心 法吗?
心法?
心法就是 以前我在 做电话的 时候, 我觉得学 到一个非 常有让我 能够去克 服挑战的 很重要的 一个一句 话是, 嗯。
总有方式 去建模价格。
这是当时 我自己觉得 给我一个 力量的支 撑的一句话。
然后当我 后面,当 做量化的 时候,你 感觉价格 就是你的 rewa rd,对 ,你要去 预测准价 格,你才 能做好量 化投资, 然后到回 到做大模 型赛道的
时候,你 会发现那 个rew ard是 不那么清 晰的,然 后是变化 的,然后 这个时候 你应该, 更就对我 来说我的 心法就是 说我应该 做当下符 合我价值
观的事情 然后这个 事情我觉 得他一定是要
嗯
这个很不 容易的事 情得到被 替代,然 后他有更 多时间去 做更有价 值的事情。
所以我们 老在幻想 ,如果我 们的工作 90%被 替代过后 ,我们应 该干点什 么有意思 的事情。
每个都能 想到非常 多有意思 的事情。
哦,真的吗?
对,真的。
你想干嘛?
好,我觉 得我想的 事情在变 化,但是 我觉得我 此刻,我 有想过…… 此刻我还 没想这个 事情,我 大概一个 月前有想 过,就是 我觉得一 个非常有 价值的事
情是现在 中国的很 多基础的 研究,它 其实是太 ...
...
太去要求 有一个很 完整的产品, 那些八道 的证明呢, 就并没有 一个很好 的资金, 或者说有 一个慈善 的机构, 或者说OK, 什么样的 东西来去
支撑, 这种做基 础研究的人, 去往这种 更突破的 方向去迈 进一步, 然后也没 有很好的 资金, 这种体系 包括如果 有很好的 这种算力资源 它需要很
好的基础 设施的体系 来去支撑 他们去做 这样的事情 那么我们 可不可以 搞一个这 种公益型的 啊 呃 AI
is doing it.
我始终觉 得应该加 速做科学 研究这个 事儿, 是哪怕最 终实现一 阶段, 也有很多 要做的事情。
为什么一 定要去跟 他竞争?
就让他做 好了。
那不一天 到晚躺着 没事干吗?
总要做点 新的事情吧。
如果纯享 受生活应 该也挺无 聊的。
或者说你 总要去做 点帮助他 的事情吧, 我觉得。
这个事情 可能是当 前的模型, 可能是当 前的模型, 比如说提 供情绪价 值,对吧?
给模型提 供情绪价值。
给模型提 供情绪价值。
还需要吗?
你现在之 前还在想 怎么让模 型给我们 提供情绪 价值。
嗯,对对 对,总之 就是要做 点有益的 事情。
嗯,但这 个有益我 觉得是按 照个人的 价值观来 进行评判的。
然后,嗯 ,无聊是 不是一种 意义我也 不知道, 但是好像 无聊对我 来说不是 一种意义吧。
过去半年 你遇到压 力怎么缓解?
压力,有 压力的时 候大吗?
我,我的 脑子就是 一个sa dly wind ow的情形, 就我,我 ,我忘得 非常快。
我哪怕有 压力,我 当下立马 就是,嗯 ,嗯,嗯, 可能快的 话一两个 小时就过了 慢的话一 天就过了 我睡觉第 二天一定 就过了 对 所以我缓
解压力的 方式非常快 但是这也 基于一个前提 是你第二 天会有一 些新的 有想象力 有上线的 事情给它冲掉 你立马就忘掉 如果它还 是在那个 cont ext里
应该就忘不了 这次模型 发出去之后 跟你有什 么想象不 一样的吗 有什么得 到什么新 的反馈啊 我觉得这 一次,就 是我觉得 所有的事 情都在我 意料之内
,我也不 是说这一 次,我觉 得每一次 都在我的 意料之内 ,是因为 我先看到 这个模型 的能力, 所以我能 预料到这 个模型发 布出去过 后别人会 是什么样
的一个感 知的状态 ,所以反 而我是对 任何发布 是有点脱 明的。
我也能预 想到它最 火的一种 状态是什 么,或者 说最炸的 一种状态 是什么, 这些我都 能预想到 ,所以它 完全在我 预料之内 ,我也没 有有多兴 奋或多怎
么样,我 只是觉得 ,OK, 我们认为 这个模型 达到了水 平和能力 ,被大家 感知到了。
So 外部对这 个模型的评价
包括它在 什么框架 里好用 它目前达 到什么模 型一个对 标的水平 基本上都 跟我们内 部的评估 是一样的 所以大家 是正确的 评估了它的 我反而是 在发布的
前几天就 在开想 OK我们 下部要干什么 我早已经 进入下一阶段 所以这一 阶段状态 我就没太 care了 你们为什 么3月1 1号的时候 是先上线 了两个神 秘模型
出于就是 因为Po st-T rend 在训练过 程当中, 我们拉了 中间的几 个协和方 式出来看 了一下, 然后发现 到某一个 阶段发现 它就非常 好用了,
然后我们 就觉得应 该让大家 去体验一 下它。
然后以及 匿名的阶 段大家的 这个评价 会更公正 这确实是 一个很好 的方式 所以就直 接上了O penR oute r匿名上 看大家对 他的评价 跟我们是
不一样 然后当然 也有一些 比如说 我们当时 没有意识 到的问题就是 这个是我 们从匿名 期间接受
到外部评价。
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -
- - - - - - - - - - - - - - - - - - - - - - - - - - - - 嗯,我觉 得他是一
个非常好 ,非常有 战略眼光 的老板, 天使投资人。
Anyw ay, 后边还有 很多标签 ,对。
就没有要求。
就在这个 事情上, 如果一开 始,我加 入小米之 前,就在 这个事情 上是高度 统一的, 所以后边 你不需要 有过多解 释和说明。
对,就做 就行了,对。
按照我们 的判断和 直觉做就 好了。
然后做了 ,拿完的 时候,嗯 ,做得好。
We talked a lot about your VR fami ly's model.
I want to think about the prog ress of the model in the past three years.
You divi ded it into seve ral stag es.
From the end of 2022, the big model war that Chat terBee was thin king about.
What are the key chan ges every year?
How did we get to where we are today?
I think Chat terBee is the first to play a model in a...
a...
I guess it's a 4K prev iew trai ning scene model.
The length of the prev iew trai ning or the length of the cont ext is
really impo rtant.
So the next CP just lets ever yone feel that OK, I prev iewed a 4K cont
ext.
After the trai ning is over, I talked to him brie fly.
The number of conv ersa tions is one or two roun ds, or even more roun
ds.
In fact, the cont ext at that time is highly rela ted to your conv ersa
tion order.
对,一轮 两轮,一 轮两轮两轮。
然后你可 以在后续 去纠正前 续轮的很 多问题, 模型也可 以在后续 去澄清自 己前面犯 的很多错误。
这其实是 恰好GP 当时给人 的冲击, 就是你感 觉他在对 话上达到 一个内人 的智能水平。
然后,但 这些所有 东西发生 可能就是 在一个很 短的上下 文发生的。
然后他只 是在这个 横档上下 文去把模 型在超大 规模预训 练上训的 那种NO S相当最 低的那个 智能水平 给激发出来了 当然所有 激发的一 个前提都 是要靠有
一个很能 让人感知 到智能水 平的这样一套 交互 恰当就是 一个很好 的交互 对 否则你不 知道这个 模型已经 这么强了 对 所以恰当
是一个很 好的交互 这是二年 恰当GP 发生的事情 年底 对 然后二三 年的话 其实当有 一个顶尖 的B1模 型做到的时候 它的下一 年就是
OK 开源且怎 么去追上 这个顶尖 B1模型 所以二三 年你看就 是NAMA Q1
Right.
然后你哪 怕训一个 7B的结构, 那么这个 tran sfor mer结 构是怎么 样的?
是pre -neu romo de, post -neu romo de, 然后这个 细节是怎 么样的?
然后你的 head and size 多大?
这些操餐 那会儿完 全是不透 明的, 但是NA MA告诉你, OK,你 这么训, 能训成功, 它给你开 了个头, 那么记住 这个头, 所以Q1, OK,
借助NA MA的一 个架构, 然后做更 好的预训 练数据, 做更大规 模的预训 练的co mput ers给你, OK, 就是科文 系列就起 来了。
嗯,然后 ,但是Q 1做得很 好是它为 开发者生 态做了全 尺寸的模 型的训练 ,然后也 训练一些 多模型也 做得非常 的顶尖, 然后这是 对社区非 常有利于
激发,后 面社区做 一些微调 啊,还有 像有一些 微调的框 架啊,诞 生一些必 要的先决 条件,对。
然后De epSe q在同期 了,虽然 也是尝试 在去复刻 Lama, 但是可能 更在乎的 是去看到 Lama 这一代架 构有什么 问题, 而不是去 着急去s
cann ing, 对,他更 在乎说OK, Lama 这一代架构, 比如说当 下Lam a还是用 GQA, 那么GQ A在更大 的模型里边, 尤其是在,
OK, I think it might invo lve some new stru ctures to solve this prob lem.
So this is the phase of Deep Seq v2 and v3 seri es, which is to
intr oduce some new price, whet her it's MOE for high -eff icie ncy trai ning,
or MAG for lower return cost.
And then this is what happ ened.
So Deep Seq will prob ably pay more atte ntion to sayi ng, OK, I'm going
to do better rese arch to do scan ning on worse chips.
拉玛的缺 陷是什么呀?
它就是个 dens e嘛,然 后你要真 要去给它 scan ning 的话, 你会,比 如说,比 如说现在 没有人去 运营一个 几百币的 dense, 开远见好
,我说开 远见,因 为运营几 百币的d ense, 虽然拉玛 搞过,你 也能看到 结论, 但那个结 论不一定 是说这个 结构的问题, 就是它太 贵了。
它太贵了 ,你去训 它也很贵 ,然后你 去推它也 很贵,没 有人会去 扮演一个 又笨又贵 的模型。
那所以你 MOE for更 高效的训 练,然后 更高效的 推理,然 后像MOE for更 低的推理 成本的这 些模型的 架构就会 诞生。
所以这是 同阶段可 能QNN 跟Dee pSyn c在走两 个路径, QNN是 在纯sc anni ng。
And Deep Seq is cons ider ing a new tech nology for scan ning.
Which one is corr ect?
I don't think ther e's anyt hing right or wrong.
Beca use one of them is trying to get the stro ngest model.
They want to get the stro ngest model in limi ted comp uting power.
Beca use Deep Seq's comp uting power is only a few perc ent less than Q1.
But Q1 is thin king about how to prom ote better ecol ogical deve lopm ent.
所以两个 都是对的 ,没有说 谁是对的 或错的。
这样就形 成中国的 两个开源 势力。
对的,一 个开源势 力是在做 研究上做 到绝对的 高度, 然后一个 开源势力 是在真的 生态和生 态价值上, 我觉得做 到一个高度。
生态价值 本身也是 个价值,对。
如果没有 这么多的 好的开源 模型, 那么非常 多好的研 究工作, 就像De epSick R1, 前序的很 多研究其 实都是在 Q1的模 型上去做的。
So they are each othe r's source of insp irat ion, and they are all valu
able to the comm unity.
And then, of cour se, Deep Seq has more other valu es.
It has a new stru cture that brings an impact on trai ning costs, or an
impact on subs equent reas oning costs, which leads to a lot of reas oning chips.
I think it's a reas oning chip.
It has more ...
...
更准确的 判断,O K,下一 代芯片我 应该怎么 去构造, 怎么去设 计,对。
我觉得这 是一个对 这个整个 AGNT 层来说是 一个非常 好的一个 事情,对。
然后这是 可能23 年,24 年发生的 事情。
然后24 年可能唯 一发生的 一个事情 在所有医 疗之外是 OE跟RE。
其实OE 跟RE其 实在...
实在...
I think it's a surp rise inside Deep Seek er.
You can say that.
Surp rise.
You can say that, too.
It's just that it was born by chan ce.
It was born by chan ce.
I think it's actu ally ...
...
说当预训 练范式变 到后训练 的时候, 然后对于 组织和团 队以及创 新的要求 是不一样 的时候, 那么整个 团队应该 怎么再去 重组织的 一个问题。
我是在这 个事情上 得到的最 大的感知 是这个。
是团队。
我觉得团 队是其首 要要素。
按照传统 的观点方 式说,我 现在要对 后训练加 大投入, 好,算力 我投了, 那投人, 那我从外 面挖一个 人来,或 者是我, 我从,就 是我新组 建一个团
队,这个 是错误的 方式吗?
就得看这 个团队本 身,他可 能会觉得 后训练的 人就做后 训练。
我是觉得 这样不是 很有理由 创新吧, 就是,最 主要就是 ,就是你 能想到很 多点上他 会做得不好。
嗯 就比如说 我刚刚说的 后续练的 数据的多 样性上 嗯 如果只是 做后续练的人 天然就缺 乏这个事业 嗯 然后 还有就是 嗯 很多 嗯
- So what we see
outs ide is prob ably R1, but what you feel inside is the adju stment to
the team before the model is star ted.
嗯,和组织。
其实就是 大家认不 认可这个 事儿,然 后以及我 们要以什 么样的方 式来做这 个事儿。
我觉得我 是在RE 的过程中 是有非常 大的体验的。
但最终的 那个结果 ,就我能 预知到的 是,就我 走的时候 RE还已 经做到一 个Lit e的水平, 然后Co lour -Gre nMat h已经做 到了非常
接近于那 个OE小 的那一版。
Right.
但我没有 预设到的 事情是, 它其实是 一个范式 的转变, 就Rec entl y它其实 是可以通 过Col orMa sk这个 高泛化的 场景能放 到同样以
外,这个 其实OE 也没有走 通,这个 是我没有 预料到的 事情,所 以也是因 为这样的 一个背景 的因素在 导致我后 面在看一 些新的东 西的时候 ,哪怕它是
for 一个很垂 的场景去 做,像C olor ,尤其是 Colo r这种场 景去做, 我会先思 考它是不
是真的能 泛化。
是不是我 把他想小了?
对,然后 ,嗯,这 只是一个 可能,我 自己沉淀 下来的一 套ski ll,然 后,嗯, 然后这是 24年25年 对 可能25 年我觉得 很薄弱的
一个事情是 它处在一 个很交错 的一年 这个交错 的一年就是 你可以选 择在Ch ad的这 套方式下 把Ori gina lly给 做到极致 继续去把 Sway
Bench 把Nav code Bench 这些偏C ode的 Benc hmark 就是思考 很久给出 一个答案 然后把这 种Bunch 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯
嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 嗯 美麗麗麗 麗麗麗麗 麗麗麗麗麗
美麗麗麗 麗麗麗麗麗麗 美麗麗麗 麗麗麗麗麗 美麗麗麗 麗麗麗麗麗 美麗麗麗 麗麗麗麗麗 美麗麗麗 麗麗麗麗麗 美麗麗麗 麗麗麗麗麗 美麗麗麗 麗麗麗麗麗 美麗麗麗 麗麗麗麗麗麗
美麗麗麗 麗麗麗麗 麗麗麗麗 美麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗麗 美麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗
麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗 麗麗麗麗
麗麗麗麗麗麗 应该是, 我觉得比 Kimi 还早。
但这样一 种新的方 式下, 它其实对 整个团队 的这个敏 捷性要求 又很高。
你要快速 去迭代, 基于一个 技术快速 迭代。
所以你看 从模型的 发版速度上, 你也能看 出来哪些 公司它拥 抱的速度 够快。
可能有些 公司就没 有跟上 还是在原 来Cha d的方式下去 继续升更 没有跟上 哪怕你去 做了一些 Bros kamp 思维be nch这些
还有Te rminal Bench 这种所谓 的age nt的b ench marker 这些be nchm arke r提升得很深 但它并不 代表这个模型 它真的能
实际可用 比如说它 就是一个 非常离谱 的评价指标 就在这上 面训的模型 我感觉只 能在这种 数据上测 你换种方式 哪怕也是 做信息检 索的方式 你最终它
能力还是 发放不出去 就很奇怪 嗯 就是这套 整个税级 它举向整 个框架也 非常的s peci fic 对 所以就是
就这半年 如果说在 所意见的 人大部分 是在走到 这个歧途上 我觉得它 算是歧途 We also went thro ugh a small step.
Flash didn't want to be an agent in the first gene rati on.
They just wanted to be a good chat.
But I think one reason is beca use we really need to get the chat tech
nology done first.
Just like I said, your chat should be at least 70-80 poin ts.
Then finish the whole proc ess.
You can say that your post -train data infr astr uctu re, your infr astr uctu
re, your exis ting peop le, espe cially those we recr uited, have never been as
big as some peop le.
他有个历练 他必须要 有个成长 的经历 否则他一 上来就做 新的东西 怎么好做呢 对 就是我那 会儿做F lyHa sh的时候 我纯粹是一种 OK我们
做过的事情 这样一群 没有经验 的人再做一遍 但我更在 乎是这群人 在做这样 一群新的 事情的时候 他们自身 然后他们 这个进化 就对我们 后边去做 新的事情
非常有价值 因为我极 少在中间 给非常强 的sup ervi sing 除非我发 现你要掉头了 对 否则你给 太细节的 这种监督信号 就告诉他
这个事应 该怎么做 的一个缺 陷就是 嗯,他们
刚毕业?
比如说在 学校做了 一些基础 的研究, 然后比如 说之前甚 至不是做 大模型的。
那是做什 么的?
做工程的 呀,然后 做开发的呀, 这些都有。
一点训练 背景都不 需要?
有大概...
三分之一 到四分之 一人稍微 有一点点 训练经验 ,但是可 能都只是 训过比如 说7B, 14B, 类似于这 样的规模 模型,我 觉得他跟 训练大模 型的那些
经验也不 太能复用。
那需要你 有很强的 训练的实 践的经验 吗?他对
吗?他对 你的经验 要求高吗?
他对...
但是我后 面发现 你不要告 诉大家一 二三四四 什么,然 后就推大 家一起, 我们一起 来重新做 一半这个 事儿,然 后大家就
会往前走。
然后这个 组织等会 儿聊,我 们先把这 个聊完。
你刚才回 顾了从2 0年底到 现在的整 个就是技 术发展历 程,以及 各个公司 做了什么 关键的事情。
所以现在 大模型的 竞争从之 前的Ch at过渡 到了Ag ent, 对吗?
这算是这 个模型竞 争的第二幕。
第二场战 役,就是 所有人都 开始在同 一个起跑 线上。
太原模型 应该是, 可能冰原 模型我觉 得早,早, 比如说, 比如说, 可奥德应 该是两年 前就在这 个路径上 了,只是 我们没有 意识到他 是最正确 的路径而
已,对, 或说大部 分没有意 识到。
很多人我 觉得是在 去年意识 到了。
对,去年 意识到, 但是都没 有在做正 确的事情 ,在我来看。
什么是正 确的事情?
正确的事 情就是你 要在一套 非常复杂 的age nt的框 架,或多 样的ag ent的 框架上, 然后去端 到端的完 成更高复 杂度的任 务,并且 以此为目
标作为你 的后续练 的范式。
而不是在 一个很局 限的场景 里边,针 对一个这 个场景定 制的这个 这套很简 洁的架构 里边去做 另外一个 比恰得更 复杂度高 一点点的, You
think Mini max is chan ging fast er?
我感知到 我觉得它 是比较快 的,因为 他们用一 个识别模 型做到目 前的这样 的一个a gent 能力,我 觉得是蛮 惊艳的, 就是他们 的后训练 的敏捷程
度是非常 惊艳的。
但是你说 agen t的这个 第二幕所 谓的入场 圈是一体 的基础模 型,那m inim ax没有 这么大的 模型啊。
对,所以 我觉得它 并没有说 真正意义 上已经对 标靠的OPS 4.6了嘛。
你觉得今天
嗯 你能不能 评价一下 中美两边 这些厂商 你们各自 到了一个 什么样的 位置啊 现在大家 batc h有什么 不一样吗 嗯
大家可能 一个共识 都是认为 欧洲品的 路径是正确的 我觉得这 算是当下 的一个共识 就是A- Gene 的这条路 的路径也 会更清晰 至少在过 去的三个 月以内
我觉得A -Gen e的路是 变得更清晰了 所以在路 径更清晰 的情况下 嗯 I think the dome stic larg e-sc
ale teams will expe rience a state of acce lera tion.
Beca use now the gap betw een people on the print chain is basi cally non-
exis tent, or very close.
Or the dome stic larg e-sc ale teams have adva ntages in the print chain stru
cture.
I even think that Cloud may have been in the past, 很多co ntext engi neer
ing, 我们都误 以为它是 因为模型 结构不是 很先进, 然后为了 成本而做 了一些妥 协的设计。
但现在回 过头来看 可能是有 点想得太 局限了。
然后现在 可能你能 看到所有 的这些c onte xt, 不管它最 开始的东 西是什么, 但最终目 前的这样 的一个状 态是它所 谓的co ntext的
- 其实是为 了配合模 型发挥更 强大的 整体的任 务的完成 度而设计的 所以我觉 得当大家看到 这样一个 方式一个 转变了过后
所以又有 一个机座 并没有发 生代差的 这样一个 情况下 那么大家 其实就很 all in的 要去做好 Agen a的po ster
tree 或者说更 具体的说 其实就在 Agen a上怎么 去做好 Out of the Scre
ening I think it's very clear that we have to go after the gap betw
een print and train for three years.
When did you real ize that coding can be so powe rful?
I think it will be at the begi nning.
Whet her it's in the print or post -print mode, even if I start from the begi
nning of the second or third year, I will have a very high expe ctat ion
of the coding flex ibil ity when I return from the mass prod uction to the
main line.
但是这种 期待它是 转变成说 OK 我先要好 好的去做 好cod e的预训 练数据 然后再去 scan ning 算力看一下 它到底在 code
benc hmar k上会不 会很好 再看看c ode benc hmar k提升了以后 其他的犯 推理类的 像BPH Joff 这种be nchm
ark会 变得更好 其实它是 一步步去实验 验证的这 样一个探 索的路径 然后到R EDAR 块又一次 验证了 因为co de和m ass都 有非常好 的ver
ifie d的指标 所以又一 次验证 然后到a gent 这个范式 code 又因为它 有很好的 envi
ronm ent.
嗯 RL scal ing, have
you found any prel imin ary resu lts?
暂时还不 是很方便 分享。
我觉得等 我们有一 个至少我 觉得在RL skat ing上 的算力跟 运训练的 算力达到 一个同一 个水位的 时候, 我觉得我 们会给大 家分享。
你觉得今 天的竞争 变得更激 烈了还是 变得更平 缓了?
相对于2 3年。
競争的维 度变多了吗?
竞争的维 度变多了。
但是其实 应该说竞 争的维度 和速度都 变多了。
速度变得 非常快。
可能你做 预训练你 不可能一 个月出一 个模型, 但你做后 训练你确 实可以一 个月出一 个模型。
然后还有 就是,
嗯
How do you do a scan ning of the cont ents of the post?
It also invo lves, for exam ple, if you do a scan ning at the begi nning
of trai ning, then the post -train corr espo nding to you, doing post -train on
the post -train on the 1K, and doing post -train on the 256K, its comp uting
diff erence is seve ral times the diff eren ce.
其实是有 一个更长 的决策链路, 它从原来 Print Trai n出的, 只需要对 print
train 本身的架 构做决策到 需要对 你对快速 的接下来 一段时间 Agil e框架演变 推理芯片 的整个市场 我觉得算 是供需的 一个预估
因为芯片 它受制于 制造的工艺 制造的储备 它瓶颈就 在那儿 然后以及 你要不要 尽早去规划 去做更广的
嗯
至少他对 创业公司 的团队的 规模要求 会越来越小, 就是可能 不需要有 一个非常 大的公司, 就几个人 ,甚至一 个人都可 以成为一 个公司, 他大概就 只要你学
会充分借 助age nt来去 让他变成 你的, 就我之前 老看到有 人说Op enCl over 上我一个 人养很多 个员工, 就
嗯 我自己也 去做过这 种mul ti-a gent 的尝试 虽然当下 目前来看 是不那么 现实的 或者说我 觉得有点噱头 但是我觉 得它很快
会变成一 个现实 在今年内 嗯 会 对 Mult i-ag ent 对对 现在没有 突破的地 方是什么呀 现在差哪里了 嗯
每个环节 都差点 就比如说 你需要有 个足够便 宜的模型 因为你最 终算的是 它是不是 比我招一 个真正的 员工更便宜 如果不是 那么便宜 ,为什么
要用你呢?
所以你还 是要有一 个更低价 的模型 不可能说 你烧个C loud Ops一 天花一千 多token 结果那个 员工创造 的价值可 能一千 对,就这
个意思嘛 然后第二 个就是 我觉得现 在的mu lti- agen t的架构 并没有那么 我觉得还 有空间, 反正对, 还有空间 ,以及他 们各自怎
么去自信 化自解的 ,以及互 相去沟通 ,这都还 有空间, 就都还, 虽然有, 你感觉现 在已经有 这个雏形 了,而且 我自己也 ,Mar tin也 用得挺顺
的,但是 我始终觉 得他还是 在去节省 成本,节 省时间, 并没有去 放大最终 的上限。
Right.
然后其他 所有的东 西都很简 单,然后 就反而模 型借助这 个一件的 架构本身 就变成一 套新的产 品了。
现在你看 看一个公 司为什么 要选择开 源,为什 么要选择 闭源?
因为国内 大部分公 司都开源 了,除了 自己,现 在选开源 的目的会 是什么呢?
这是一个 技术选择 还是一个 市场选择?
还是一个 去加速一 件的事情 ,我还是 认为是这 个目的。
开源是加 速一件的。
开源一定 是加速一 件的事情。
就你如果 没有开源 ,我们假 设一件会 爆发,假 设它会替 代绝大部 分的生产力, 那么我们 可以从这 个事儿去 倒推,你 需要多少 的芯片?
你需要, 那么这些 芯片难道 会被一家 公司, 生产吗?
难道会被 一家公司 购买吗?
好像不是 ,它会分散。
然后,那 么如果它 是分散的 情况下, 那么假设 芯片是分散, 那这些芯 片的推理, 有可能是 芯片的厂商, 有可能是 大模型的 厂商。
那么它用 的模型难 道是同一 个吗?
还是用的 不一样的 模型?
我认为一 定是不一 样的。
对,所以 你从中举 来倒推的 话,开源 这个事一 定是至少 有利于推 进这个事 情的。
因为它最 终要大规 模产生经 济价值, 它必须要 依赖于算 力才能产 生经济价 值的。
对,所以 我认为开 源是至少 对于很多 环节,也 就是框架 ,芯片, 能源。
这些环境 上其实都 是有促进 作用, 所以我认 为它是加 速外界的 进程的。
那你说它 最后是一 种公益, 还是一种 市场?
我觉得是 取决于每 个公司在 开源, 结合自己 的生态位 就是你有 没有一个 别人不可 以短期内 拿下的一 个战略的 生态位 如果有的 话那么你
就敢开源 如果没有 的话你就 认为模型 就是你的 生态位 那你就不开源 就是这样 的一个行为 你在一个 大公司做 开源的事 情会有压力吗 我现在不
觉得我在 大公司做事情 其实小米 整体我觉 得非常的 创业导向 I think it's stra nge that it looks like a
big comp any, but it's actu ally a comp any with a very flex ible way
of doing thin gs.
So what do you think will become the winn ing hand in the comp etit ion
of the model comp any in 2026?
What can be left on the table?
First of all, you can't do anyt hing wrong.
First of all, your trai ning, your sitt ing, 嗯 不能错 就如果这 个事儿都 没有上 那就基本
上就完全 没有机会了 对 所以假设 我们都有 一个大于 一体的模型 然后机座 的潜能都 尤其在扣 的上潜能 都是相当的 这样的一 个base上 那么大家
比拼的就是 怎么去快 速的去 第一个 怎么让A gent 的框架跟模型 互相自迭 代提升 第二个 怎么让这 个Age nt的架构 去更多的去 偶合你现
在所具备 的资源 对 或者说生态位 怎么让A 型的架构 去理解和调度 你现在所 备的资源 和生态位 比如操作 系统是 比如说硬件是 比如说流 量也算是
对 然后流量 社交这些 都算是 对 怎么让A 型架构去适配 你现在的 所具备的 战略资源 然后最后 合力起来 怎么把它 给整合好 其实它很
考验的是 我自己觉 得它非常 考验的是 一个公司 愿不愿意 用一套新 的方式来 做这个事情 什么叫新 的方式呢?
得思考原 来所有做 的东西都 是错的 对 原来是不 是需要这 么多人来 做这个事情 首先要思 考你需不 需要这么 多人来做 这个事情 就是你现
在所有做 的事情 这些人是 不是都需要 Fron tier Lab's fron tier should
be where?
最基本的 我觉得做 研究应该 放铁。
对。
就是还是 要有那种 自己想要 原创做很 多东西, 而且这些 东西, 可能短期 的也不会 那么主流 ,但是你 要说完全 不会主流 认可,那 也很奇怪。
我自己觉 得有点蛮 反主流, 我觉得不 是很适合 的一件事 情是, 你很难s cann ing, 我还是很 相信sc anni ng这个 事儿。
你只要顺 应主流的 话,那你 就很容易 去sca nning。
为什么呀?
你的所有 的音法。
所有的硬 件芯片这些, 它都是我 要的这个 目标来一 起往前推 动的, 那么你这 个研究又 会获得非 常大的加 速度, 对,主要 是这个原因。
所以我觉 得会顺这 个主流, 然后去做 一点,我 们超前来 认为, 比如说N HK's Infe ctio n的架构, 它其实就 是在这样 一个背景 下去做的,
但它也没 有说开天 辟地的研究, 但我们认 为这些小 点研究, What are you most sati sfied with in your rese
arch in the past few years?
嗯
它是稍微 在一个 有时候可 能更多是 在一个 资源受限 的场景里 面做了研究 但它本质 上是可以 scan ning 的研究 对 所以我觉
得这个算 是一个不 错的作品 然后Mi rror ware系列 我觉得也 算是一个是 是因为我们 确实在A gent 的这个范 式还没有 非常明朗 的时候,
就去做了 很多前置 的这个决 策和判断 ,然后导 致我们很 高效快速 地去基于 一个优雅 简洁的结 构给迅起 来,然后 这个结构 并且最终 我们发现 它非常的
适配Ag ent的 这套范式 ,然后我 们又快速 地去转移 到Age nt的这 套范式上 ,做了很 多后续练的,
Right.
嗯,就核 心原因是 我现在也 不看学术 会议的p aper。
主要的原 因之一是 ,我觉得 大部分的 实验确实 应该自己 做,然后 你相信自 己的实验 结果比相 信诺文的 实验结果 会更好。
但是我会 看一下它 的原始关 注的问题 和动机是 什么,这 个我会偶 尔会看一下。
But in any case, I think that whet her there are people who have done rese
arch in this kind of larg e-sc ale algo rithm team or not, I found that
the charge is also quite diff erent.
So I'm now less and less look ing at these thin gs.
那你现在 信息来源 包括哪些啊?
来源自理 来,真来 源自理来。
我最近连 跟人沟通 都很少。
对,所以 我都不知 道我今天 讲的这么 多个小时 的这些东西, 它会不会 过一段时 间发现, 我应该会 过一段时 间会发现 它是错的, 但是我不 知道当下 会有多少
人会觉得 它是错的, 或者说是 不是有帮 助或价值的。
你还没交 流过?
没有交流过。
要说有交 流就是自 己跟自己 交流,然 后自己看 看跟团队 里边的其 他人在做 同样实验 人交流,对。
你刚才其 实多多少 少都提到 了一些组 织话题, 包括我们 上次也聊 了很多组 织话题, 你在最近 的两个月 有没有一 些迭代啊?
就100 个人可能 有20个 人以前训 过,接触 过,小一 点的模型。
对,就主 要是我觉 得这些事 情它都可 以被, 被快速习 得,这些 能力真的 都可以被 快速习得。
只要你被 放在了环 境里边, 围绕着一 个更高标 准的目标 来驱动的 时候, 这些能力 都是可以 被,我觉 得最多一 两个月, 慢的话三 四个月, 确实都可
以被快速 习得。
所以环境 反而比经 验更重要 ,我自己 认为。
所以我就 没有太在 乎他的经验, 而更在乎 我是不是 创造了一 个更好的 环境, 这个环境 让大家更 快地, 更快的提 升学习, 让大家互 相的所谓 MOPD
,我们说 的,就是 互相的针 流,我针 流你的长 处,你针 流我的长 处,互相 这样快速 的提升。
对,就是 我更在乎 说,我自 己创造这 个环境是 不符合这 样的一个 限约条件 的,而不 是在乎这 个人来的 时候,他 的历史背 景的这个 基因是不 是好,我
只在乎他 的可能初 始化企业 和破坏者 的上限高 不高,我 只在乎这 个事情, 但我不太 在乎他, 她目前已 经被su perv ised的 哪里过后 的那个点
的状态高不高 我就不太 在乎这个 那你会选 什么样的人啊 就是她的 学历是需 要和人工 智能相关的吗 看做什么东西 看见博士 的比例是 55% 对 那是包含
再读博士 对 再读 不是博士毕业 是再读博士 那些数字 我觉得是 有点刻板的 然后 嗯,其实 这更多是 代表一个 人对做研 究的热爱
程度。
就如果他 对做研究 热爱,他 可能会选 择至少读 一个硕士 或博士。
然后,但 我发现现 在更,我 们也招了 非常多的 本科生, 然后本科 生在对这 种AZ的 这种新的 方式, 范式的理 解上,我 觉得反而 他的想象 力会更高
,所以我 现在反而 招人会慢 慢倾斜到 去招更多 的前置的 本科生, 我们会去 招大二大 三的人。
为什么呀?
因为他们 的灵活性 和适应程 度都感觉 没有被污 染,就天 然更接纳 这个事情会。
产生巨大 价值。
对,因为 他的思想 还没有被 禁锢的感觉。
然后,所 以他敢放 心大胆地 把自己那 些想法交 给这套家 屋去验证, 然后自己 不断去探 索这个边界。
那你怎么 创造环境?
首先是构 建这个环 境的人, 他是要有 同样的, 特质的就 比如说我 说要强调 热爱这个 事情,然 后强调使 命感这个 事情,我 觉得是要 有这些基 础的特质的。
然后其次 又是在这 些特质因 为它都比 较虚嘛, 所以你信 ,所以另 外一个就 是要把这 些特质给 真的给放 大的一个 前提是它 的基础要 好,就是 它要有这
些特质的 特质。
嗯嗯嗯就 是你可以 以为是当 他想做什 么设计的时候 哦他有这 个热爱的 时候他要 能做成 就他这个 基础要好 他不能就 光就想法 都在做不成 就这个基 础是构建
成他最后 做不做得 成的关键要素 这是个技 术能力对 对所以我 们会选基 础好的然后 哦好奇心 肠的然后 哦热爱驱 动做事情 的当然还 有一些可 能嗯越来 越会有一些更
嗯 更多 对多样性 有更高的要求 对多样性 有更高的要求 因为如果 招的太同质化 那么大家 很容易去 miss 掉一些 嗯 看起来是噪音 但实际上 对研究非
常有价值 的一些信息 对 然后那么 这个时候 多样性会 非常重要 嗯 所以我们 上班那个 嗯 每个群集 在那聊了 挺多的 对 就大家都
会疯狂的 嗯 把自己的想法 或者说关 注到的信 息给分享出来 嗯 然后或者 说有可能 是在群里面 有可能就 在座位上 反正吵得 不行一天到晚 然后我觉 得这样的
沟通环境 是非常好的 然后当然 还有一些外部 就是这是 内部好 还有一些 外部的因素 就是比如 说你的基 地的方式 就不能太 围绕着某些 非常确定 和清晰的 目标来做
然后以及 我觉得这 个激励方 式,钱是 一个很重 要的base line ,但是它 不是唯一 的base line ,对,就 是钱要给 够,但是 除了钱之
外的其他 东西也非 常的关键 ,就是 它的价值 感,它的 意义感, 其实我觉 得很多人 远远更在 乎这些东西。
你刚刚说 后训练团 队搭建方 式和预训 练会有点 不一样。
通常我们 在后训练 上看到的 人,就两 类会适应 得会非常 好,对, 或者说他 对这个事 会更有热情。
第一类就 是他会 更注重去 跟模型玩 的这样一 群人。
对,因为 他去玩他 才知道每 个模型能 力的边界 在哪儿, 然后他才 会去想要 去找到一 种可sc an的方式, 去把他这 个边界给 补充回来。
有可能是 去构造一 批更强的 数据, 以及更强 的环境让 他能够R O训练起来。
然后有可 能是fo rbid 到预训练 的某个环节, 可能这批 数据没做 好,我给 我把这个 数据给它 补上, 这一类的 数据给它 补上, 那么可能 我下次去
模型的时 候会更好。
总之就是 更在乎模 型体验的人, 更跟模型 交互的频 次更高的人, 他会非常 适应这个 方式, 因为我觉 得这个迭 代是有价 值的, 尤其是那 些维护了 自己很多
私有的测 试库的人, 然后他疯 狂去测不 同模型的 边界, 然后突然 发现某个 模型强了, 然后分享 出来自己 这种独特 体验的人, 我认为还 是蛮适合去
去进入这 个方式的 还有一个 就是确实 我觉得不 可避免是 我们要用 新的Ag en的方式 去设计它 很好的 R2的音 法体系 所以做R 2的音法 跟做Pr
int 2的音法 有一个非 常大的不同是 R2的音 法会更在乎 这个模糊程度 我自己认为 比如说我 们出现一 个low spike 你就不允 许它出现 你要想要
把这个s pike 给它解决下去 但做all in file 你就要允 许它容错 就是容错就是 你允许这 个模型跟 这个ag ent 在这个a gent
框架边 如如如到一半 这个垂直 路就断了 但它断的 原因有很多种 你根本找 不到它是 哪一种 它有可能 是因为 这个ag ent框 架写了某 个超时的逻辑
有可能是 因為他做這個 任务需要 很长的验 证流程 那就罢了 你不知道 它是因为 什么原因 这个就断掉了 还有一个就是 会不会你 的训练跟推理 是在异构
的集训上训的 然后所以 你的训练 和推理的 不一致性 我觉得在 原来Co lgan Mass 的那个R isne y那个范 式里边 是不能容 忍这个事情的 但现在你
必须要容 忍这个事情 然后引起 你怎么去 做一些 更多的异 构资源的调度 比如说现 在除了G PU你还 要管CPU 然后你还 要管存储 ,对吧?
然后所以 就是怎么 在这种很 复杂的一 个资源里 边把这个 模型迅起来, 然后就是 我觉得这 里边需要 很多算法 跟工程的 一个妥协, 中间这个 模糊的地 带非常多,
然后所以 它对英法 人的要求 的灵活性 的要求和 这种, 这种跨在 两个领域 的这样的 一个理解 我觉得要 求变得非 常之高 然后换句话说 其实我觉
得它相比 Punc her来说 它都对灵 活性和敏捷性 都提出了 新的要求 然后能够 适应这个 范式的人 就会觉得, 他其实没 有适应, 就是原来 就是有那 么一群人,
他比如I NFA里边, 哪怕IN FA是一 个相对来说, 追求一个 很多事情 都是有一 个清晰的 答案和解 法的人, 然后他来 做R的I NFA, 还是会以 ...
...
会有那么 一群人是 适合做R L音法的 所以大概 我觉得是 这样一个变化 所以我们 那边可能 看起来还是 至少做P rint rune 音法跟R L音法 我觉得还
是分开的 不太能够交融 因为他们 确实对于 我觉得对 复杂性和 精确度的要求 会差异很大 做RL的 瓶颈到底 在哪里啊 你刚才提 到Pri ntrune 其实真正
差不多了 其实真正 把Age nt的RL 给sca n一起来 的团队很少 非常少 包括海外 是吧?
奥索比肯 定做这个 事儿。
然后其他 团队我不 是非常了解, 至少我从 最重的模 型效果上 感觉到, 没有sk inni ng到跟 print trai n一样亮起。
这是之前 发展的两 个方式吗?
你觉得再 往后有什 么新的方 式吗?
不确定, 先把这个 方式做了 再说。
我觉得我 们刚刚聊 到那个就 是一个生 成模型跟 感知能力 很强的模 型联合到 一套新的 框架去进 行二号训 练这个事 已经足够 的在我的 规划里边 已经足够
了长期并 且比较难 实现了 现在有人 说是co ntinue lear ning online lear ning 我现在觉 得con
tinue lear ning 和onl ine lear ning 我更多的 是代之它 跟这个环 境产生交 互的时候 或说跟A zure 框架多能 交互的时
候这个框 架本身在自己 迭代和进 化,我是 不是这么 去定义这 个事情呢?
你对未来 有什么预 期啊?
我觉得未 来可能是 26年, 可能是2 7年,可 能是更长 远一点。
我现在觉 得把当下 的做完之后。
每天的研 究都做好 ,我就觉 得非常好了。
你现在工 作状态是 什么样, 工作节奏?
早上11 点,晚上 1234点。
但这是我 的状态, 不代表我 们团队其 他的状态。
你是叶毛 子,是吗?
Um
这里是商 业访谈录 ,是一档 由语言及 世界工作 室出品的 深度访谈 节目。
你可以到 公众号关 注我们的 工作室获 取更多的 信息。
我们的公 众号是语 言及世界 ,lan guage is world。
我们希望 和你一起 从这里探 索新的世界。
Loading video analysis...