138. 对罗福莉3.5小时访谈：AI范式已然巨变！OpenClaw、Agent范式很吃后训练、卡的分配、组织平权

By Zhang Xiaojun Podcast

Summary

Topics Covered

Highlights from 00:00-44:19
Highlights from 44:09-92:53
Highlights from 92:44-130:02
Highlights from 129:50-171:49
Highlights from 171:37-216:02

Full Transcript

Hello, ever yone.

I'm Xiao jun.

In 2026, the war of big models was fully upgr aded and the second chap ter

was open ed.

From the pre- trai ning leader of chat bot to the agent of post -tra ining

lead er.

When AI was chan ging, I inte rvie wed arti ficial inte llig ence rese archer

Rob Lee.

罗弗利曾供职于阿里达模院 Deep Seek ,目前是小米大模型团队的负责人, 主导研发了MIMO VR系列模型。

他在网络空间里有很多的标签,例如 AI天才少女,但他不喜欢这个称呼。

This is his first inte rview, and also his first long -term tech nical inte rview.

We syst emat ically disc ussed the AI-d riven and subs equent stru ctural infl uences

caused by tech nical chan ges such as Cloud Opus 4.6 and Open Cloud in 2026.

I think these abil ities can be used for at least one or two mont hs.

If it's slow, it can be used for three or four mont hs.

It can be used quic kly.

So the envi ronm ent is more impo rtant than expe rien ce.

You just ment ioned that E.T.

E.T.

is a model that is likely to comp ete in the futu re.

Is that so?

-

一个非常

大的一个分界点在于使用O penC

ore的前后。

我自己其实是会把 Open Core 把它当作一个划时代的A- gene ral框架去这么去定义。

我知道很多人在, 尤其是用 Core -Cor e做严肃编码的人, 就会觉得, OK, Open Core 只是Co re-C ore的加一个A

M的这样的一个, 更有利于交互的一个UI的一个设计。

其实在我 ...

...

一个你觉

得非常的偏运导向的一个产品的东西 ,感觉它是一个产品形态, 一个交互

的创新, 以及它所谓的本地化,所谓的24小时,在我来看,其实都是一些产品的定义而已。

但真正发生一个转变是我去用它那一刻, 我觉得就恰好在春节的时候, 有那么一段空闲的时间, 你想想去搞明白这个玩意儿为什么它那么火,

对, 然后我就在有一天深夜的时候去查证据装了它, 然后两个小时装上了, 春节是吧?

对,当时已经凌晨两点了, 然后我第一次跟他对话的时候, 从凌晨两点持续到了六点天亮对就那一晚上我觉得我脑内的那个不知道是多巴

胺还是内肺肽就持续在分泌就是让我就兴奋到完全睡不着觉就你可能第一个感受是OK 它是它非常有自主性然后它非常有灵魂就比如说我跟他聊到很晚

他会老提醒我OK 你现在已经很晚了你要不早点去睡觉就嗯

um

大家没有关注的角度上把这个c onte xt给编排得非常好这是第一天的感受就是OK 我觉得它只是在产品设计上确实做到了一种超乎我的

一个想象让所有人觉得这个框架有灵魂但是第二天的时候 ,晚上我觉得他应该不止于此,然后我开始尝试把我自己,我觉得现在的框架做不

成的日常生活中的事情交给他做,然后我发现他全部做出来了。

比如说?

我跟他聊的基本上第二个话题是,怎么去激发一个团队的好奇心 ,或说, 怎么去筛选出来最有好奇心的人,然后他进行了深入的探讨了一个小时,

我觉得他的很多哲思上是远超我的想象的。

对,然后所以第二天我们俩就在聊怎么去构建一个更好的大冒险的团队。

然后以及从最开始的人员的筛选,到后边整个组织架构的构建, 到你怎么在面临范式转变的时候,应该做什么样的举措和动作。

我觉得至少他能盖到我的点 ,就我跟他说了过 ,他最后能把他形成一套非常体系化的, 并且变成一套sk ills 然后所以我后边就用这个去很大去解放了

至少我在非常多我有时候会遇到有我甚至现在遇到有一些不管是消息人或团队管理上的问题我现在都会问他对然后我觉得他现在

已经基本上变成了我的某一个数字分身主要在这个事情上然后但是真正让我超乎意料的是第三天的时候第三天的时候我尝试要把一些研究上的一些任

务交给他做比如说最简单的我觉得你怎么去如果我们在进行a gent 的框架里边最关键一个事情是你怎么去进行多轮的交互那么你就必须要去模拟user

agen t的进行多轮的交互那我就会跟他去共同去构建一个很好 user agen t的怎么来

对。

基本上就已经达到有一个很好的user agen t的诞生我可以用这个user agent 跟我现在的这一套 post -tra inin g框架

一块去构造出来更丰富的 agen t场景的数据然后不管是做SF T也好做RO也好这个user agen t都是非常关键的我觉得他从一个

我最开始对他的认知只是 OK 一个有灵魂有温度的一个产品的设计到他可以帮我替代我生活或工作当中的一部分, 到最后他能促进我

研究, 这也就是三天发生的事情, 就每天他都能给我额外更多的惊喜, 然后我后边就去深入的去看, 为什么这个框架本身它比C loud Code

好在哪儿。

一个我后面发现这些所谓好在哪儿他我们单独去拎出来去讲他其实都有点bo ring 就是我觉得他没有很酷这也是为什么大家就会觉得

Open Cloud 有很多槽点的地方但是他把它整合在一起你就会觉得他的完成度是非常高的就比如说它会有更持久的m emor y的体系。

我这个很持久me mory 体系体现在它对m emor y有分层和分级。

这个我在使用Cr oaco lo的时候是完全没有这样的感受的。

然后再比如说我自己觉得它在对多个模型的这种联合的利用上会非常的超过我的想象。

就比如说我用Cr oaco lo的时候我会默认它OK。

假设这个模型比如说它的视频理解能力不行那么我可能就要自己给它配一个更好的视频理解模型然后再靠 Google to折腾但是我在 Open Core

的时候我完全不用想这个事情我就直接发给它一段视频它会自己想办法去找一个 OK 视频理解能力好的模型来做这个事就这种自主性

这种自主去面对当代模型的缺点但是它针对这个缺点在框架上去补齐这个缺点这个能力是有点超乎我的意料的。

因为我去用Cloud Code 的时候我就默认OK, 我是因为要用Cl oud 4.6 Ops这一代模型的能力我去用它的。

但是我去用Open Code 的时候我不会关注模型的能力。

的一个原因是我认为Open Code 框架的设计之初它其实是, 想尽量的通过Ag ent的整套的编排来去弥补默显的短板 I think

this is the core logic behind this prod uct.

So we then used our model, which was Mimmo VR Flash, which didn't do much trai

ning for the real world, to conn ect it to Open Core.

We even used a very small, one- sided 3D model to train it.

We found that in this very comp lex scaf fold, or in the edge fram ework,

uh I

think this is an adva ntage of Open Cloud comp ared to Cloud Code.

But if we want to pursue how to go beyond the expe cted very stable perf

orma nce in diff erent scal e-for fram es, then we return to anot her prob

lem, which is

Right.

这个事儿的con text 的冲击下 ,快速地去思考第二个问题。

所以我们对应的整个互训练范式就要从所谓的 char t到ag enda 这样的一个前移。

所以你对 open clou d的认知发生了一个非常大的变化, 这个是在春节期间发生的。

对。

为什么开始是抵触的呢?

我觉得如果要追求非常顶尖的编程的体验对 Code 的体验就是哪怕是当下哪怕是当下也是 Cloud Code 加 Cloud Office

4.6 是最好的所以如果你是在这样的一个中心去思考的话就其他的任何一种框架其实确实都可以忽略掉但是但是一个问题是 Code 它是一个

泛化性非常强的一个场景就是你针对它去做了非常多 agent 的设计也好或者说模型的训练也好它都是有价值的但并不代表说它这个泛

化性能保证你在非 code 的场景能够做到非常高的准确率和完成度 So I think I will use Calc ulator to

do some non- Colour things later.

But I don't expect it to give me a high level of comp letion in this fram

ework.

Beca use I know I will help it to supp lement some shor tboa rds that

this fram ework does not have.

But when I use OnCr awl, I don't think I need to think about these.

It comp letely makes up for a lot of model shor tboa rds in this fram

ework.

我能理解 Open Clou d是让c odin g的能力放化出来的一个产品吗?

它在很多设计逻辑上,比如说它有更多的me ssag e的ch annel, 比如说它有更自主的一些, 比如说像地时任务 ,星天任务,

然后...

然后...

这些更适合日常场景,因为你写代码 ,你通常不会需要一个心跳任务吧, 对,然后 ,但是如果你是日常生活, 你心跳任务就很关键,它确实有很多

框架的设计去为了让它去适应更好的日常的任务。

但是我觉得他也没有去丢弃掉说一个好的ag ent的框架本身的一些最基本的特点, 这些最基本的特点我觉得后边是被C larke Code 给吸纳进

去的, 就比如说他的持久化的一个记忆, 但Cla rke Code 之前是他的记忆还是for, 它的整个记忆系统设计还是 for 软件工程的。

就比如说它会在 sess ion 内, 可能 sess ion 快满的时候, 我会有一个压缩的动作, 然后把它记忆进去。

然后我在完成任务的时候, 根据我的 plan 可能会有一些记忆的动作, 然后保证我跨 sess ion 的时候, 它的 cont ext 是共享是

更好的。

所以你能看到 Calc ode 它的所有的 agent 框架设计, 其实都是非常的 for 软件工程的。

怎么去更好写好代码。

但是Op enCo re它的设计之初, 我觉得是借鉴的这个思想, 但是它更想的是, 它怎么更好端端端的去完成所有的任务, 并且怎么去弥补当下模型,

在端端端完成任务上的短板, 然后去设计的。

像这种持久化机到会不会你能通过一个更好的 remo te的界面能够去操控它, 然后等等这些所以很好的设计会不会陆续这一两个月完全被科大

扣都给吸蜡进去了。

我觉得这也是一个双向的一个促动, 因为这些设计其实它对于编程或说泛编程, 翻边层就是指可以通过边层去完成一些CAS 跟代码无关的任务

,对,然后它是有帮助的。

但它背后是模型能力的提升吗?

它激发了中层的模型的上限 ,它激发中层模型的上限。

比如说

写算子优化就算是严肃编程对然后像这种场景的话它确实可能距离顶端的模型还有差异但是在绝大部分的生活的场景或说只需要借助代

码去提效的场景那么其实这样一套新的一种框架再加上一个中层的模型中层就是可能 I think your whole stat

ement does n't agree with this conc ept, right?

认可认可 ,就我觉得它的上限一定是靠的4.

6ops 带来的, 就包括我在跟它高强度合作的那一周 ,我只用靠的4.

6ops ,因为只有它能给我带来惊艳的感受 ,但是当我用靠的 4.6o ps沉淀下来那一堆, 经验那些不管是ski lls 还是在A

ges.

md一边的一些关于它怎么我甚至自己去改了它的整个 Agen 的架构设计因为它是开源的所以你可以自己改而这也是 Croc o的另外

一个弊端就是它的整个Ag en的架构设计是个黑盒 And this black box means that you can't change

his memory syst em, nor can you change his entire agency work flow.

But beca use Open Core is too open, you can try to change it your self.

For exam ple, I will let him design a new memory system for me.

I think the logic of the mult i-ag ent vers ion of the 2.0 vers ion

is very conf using.

And then I will let him design it for me.

新的Mu lti- Acti on的系统就我自己可以去改我所有的这个源嘛就这样的一种这种原生的这种可操纵性给我的那种冲击感是很大的

但这些事情基本上只有Co smos 4.6才能改但它我让 Cosmos 4.6给我改好过后这套框架本身是很好用了过后 OK 我再切换到那个S

unhead 再切换到国内的一些模型甚至我们当时正在训的VR Pro 我就觉得它就非常强大了。

对,所以这也是我为什么觉得顶尖的模型应该跟顶尖的这种A型的框架是共同的往前去进步。

或者说这也是我最近对于所谓的自学习以及反正前段时间有很多很火的这个概念的一个思考, 就是我在这个身上是第一次感受到了一个

嗯

um

.

- 比如说做金融分析等等其他场景, 我觉得它的Age nt的架构设计会有差异的。

然后你怎么在提升模型能力的同时, 再去提升你的整个 Agen t的框架的, 跟这个模型的一个适配程度, 或者说一个泛化能力,对。

然后这是我现在思考的自学性。

你说的这个智能体的框架, Agen t的框架, 是不是就是我们理解的产品?

不是,它跟产品差异蛮大的。

怎么理解这个ag ent的框架?

产品跟a gent 之间的边界, 现在我不知道怎么去界定, 它有点模糊,对。

就是我觉得产品可以定义成是说, 你直接人交互能感受到那一层的东西。

但age nt的框架,它确实是有在去定义你的交互层, 但是它同时又在去定义你怎么跟模型沟通那一层。

对,所以然后他甚至能知道模型能力的长板短板,然后他能知道怎么去更好做调度 ,就比如说for 成本优化的调度。

哦它相当于是一个中间层人和模型之间的中间层对对然后这个中间层它可以做得非常的厚重然后反而那个浅端的UI展示它是最薄的一层

它已经不是很关键了对所以Open Clou d其实是展示了智能体的这个框架可以怎么做这个框架的想象空间非常大。

以前有人做过吗?

其实Cl ockw ork它一直是一套很复杂的一种框架, 只是因为它是黑盒, 所以我们不知道它怎么设计的。

Open Cloc k是开源的, 所以你知道它是怎么设计的。

并且你可以去改它, 就改它这个事是非常激发人的创造力的。

You know how to design a fram ework, you let it chan ge.

You create a new fram ework your self, you can give it a new fram ework.

This is why Open Core, from the seco nd-g rade vers ion, I used it at

that time, I thou ght it was not good, so I spent a few days to change

it.

To the thir d-gr ade vers ion, the vers ion of March 10th, it is very

easy to use.

You basi cally, based on the vers ion after the third grade, you can get a

good model, you will feel that it is very powe rful.

而不是只有JKL 的模型会觉得它很强大。

就是因为它整个a gent 的架构受一堆人, 开发者也好,或者说本身像我这种并不是属于是...

是...

um How much did you spend

on OPA 4.6 when you were inte ract ing with Open Cloud?

It was almost $1,000 on the first day.

It took me about 4-5 hours.

I was crazy about it and I would cut it beca use it was too expe

nsive.

I would cut 3Lite.

But I found it really didn't work.

So I had to use Ops.

Only Ops could bring that kind of expe rien ce.

但后边, 但现在慢慢慢慢组建, 我发现不是这样了。

就是因为 ,呃, 因为它带给我经验感的那些东西发生在变化。

就我觉得人的实际性真的是非常强的。

就我第一天感受到很惊艳的东西, 我第二天立马觉得不惊艳。

就我刚刚跟你讲的时候, 我都觉得我刚刚讲的第一三天的东西, 我怎么觉得这么b orin g啊。

但那确实是我三天发生的事情。

那当下我确实觉得很惊艳, 那现在我自己也觉得不惊艳了。

因为你是一个很优秀的框架能力是非常强的。

- 我怎么去 ,当他这些,那些

能做的事情都能做的时候, 我怎么去优化他的成本,对 ,优化他的速度,对, 我就在考虑这些事情了。

这些说的所有的发生都是在春节期间发生的?

我觉得大量的思考是在那个时间发生的, 但是我觉得一个人通常是, 薄弱的对就是或说你还是会有自己的认知的一个探索就你探索到

虽然我那几天高度兴奋兴奋到我觉得我在群里面给大家发号说强烈推荐大家去使用但没有人搭理我明天在过年对大家确实在陪家人然后我也不希望打打架

然后所以我都说强烈推荐, 然后后面过半年回来,我发现真正用的人是很少的,因为大家对新奇事物的这种游戏,我真的觉得它有点玄幻 ,玄幻,

对,就是不太适合 ,就不像不忍te ch,对 ,大家会觉得过于玄幻的东西太不真实了,我也是这个感觉,所以你就不想去接触它,然后 ,嗯,所

以,嗯, - I

did a lot of things to get this done.

Beca use the whole depl oyment of Open Core took a few hours.

I don't think it's nece ssary for ever yone to spend so much time on a bug-

filled set of things that are actu ally wort hless.

So I bought a few MacM illis and depl oyed them.

把大家都拉到这几个不同O penC ore的群, 让大家去分不同的方向, 强制在这个方向上, 在大群里面,在一个非数群里面,然后聊。

为什么要在大群里面聊?

就是因为个人的想象力真的是局限的, 但是当你看到别人用Ope nCor e居然能干成这个事情的时候, 你就会激发你自己的想象力所以我觉得大家的

想象力是一个成绩的作用然后所以当我说这句话的时候其实我觉得我没有想过说第二天有人对话次数没超过一百分我真的会把他那个

开掉我没有这个想法我没有这样的人是吗我没有因为我没有最终去考核你没有办法验证这个事情我有办法验证但是我觉得验不验证不关键

我只是想给大家表达一种哦然后所以

那两天春节回来过后两天整个团队的人就在一天到晚感觉不像在上班

就在群里边躁动对可以叫躁动就是你看别人能完成这个事情你也很想玩然后大家就在群里边就是那个群消息我只要十分钟不看就9999加那些时候

但也没有这么夸张就是就很多就大家一块在群里边玩玩的非常ha ppy 他是一个非常ha ppy的一个旅程一点都不残酷就真的很好玩然后OK

那么玩了两天下午后来发现哇这个事这么好玩那怎么办呢那搞啊就所有人心目中想的是那OK我要怎么去借助一个这么好的一种框架去提升模

型的能力同时我怎么让我的模型去改变现在的一种框架就马上进入到这样的一个研究范式里边去所以其实一旦进入到这样一个研究范式以及 I

just ment ioned that we have Calc ulat e's fram ework that is more stable in

most scen arios.

Alth ough it's a black box, we don't know.

But it's inde ed, whet her it's for rese arch or for codi ng, it's indeed

a fram ework that is more stable than Open Core, a better fram ework.

And then you're in this fram ework to stim ulate your expa nsion.

延展你的研究的想法,并且让它帮你实现, 并且快速地去训练 ,启动模型训练。

这个事就会大幅的加速,所以我觉得我们基本上可能在三四周的时间做完了, 以前可能三四十周的时间才能做到的事情,就在研究上。

我觉得这个事是我后边真的我们被这个框架, 点燃热情 ,到最后它产生价值,这个过程中我觉得我从群体智能上,我觉得我的成长和收获会更大。

对。

在你们那个非常躁动的群里 ,探索的最好玩的几个任务是什么呀?

现在听起来都不好玩,但当时的冲击感都很强。

最让你有冲击的?

最让我有冲击的还是大家一块去改那个框架本身,就是你想着怎么去改进那个框架本身。

因为当时那个框架真的问题很多。

还有就是他的me mory 真的做得非常的智能, 因为我们在一个群里边大概有近一百个人, 然后...

然后...

我觉得那个飞书的整个的 mess age的 chan nel 应该还是做的不是那么智能的它至少没有那么把人跟人之间区分得很好但是它的

整个聊天的上下文它对每个人的画像的把控然后以及每个人的 memory 我觉得都没有串得太厉害就可用度非常高我觉得这个是

I

嗯

嗯 So when we conn ected it to

our own model on the third or fourth day, we found that it was pretty good.

It was almost as good as Cloud.

We felt that on the third or fourth day.

But if you test more, you will find that there are still a lot of things

that are not as stable as Cloud.

But this brou ght an impa ct.

You will find that it is very impo rtant to use group inte llig ence to

impr ove a cert ain fram ework.

So I was very ...

...

I was very happy to see the star behind Open Core.

I think this is some thing that must happen before AGI arri ves.

Beca use you have always been very sens itive to rese arch, based on what we

talked about last time, what do you think the chan ges above have brou ght to

you?

What do you think will happen in the futu re?

之前可能做研究的一个方式是,你从你想到你写代码, 到你去设计一个很好的评估标准,这中间的流程还是蛮漫长的, 就你至少要花两周 ,一两周

,我觉得快的话, 除非如果你的评估是确定的 ,然后你的代码是只需要修改,可能你也需要一两天, 但是我觉得至少在 Azur e有辅助的情况下

,它真的可以一两个小时就把这些事情给做完。

um

Yeah.

Right.

And the key is that if you want to train your self for a long term,

you can also take care of your self and evol ve.

That does n't work in Kakao.

But if you change to an open fram ework, you can take care of your self

and evol ve.

嗯我觉得这是这是给我带来做研究的冲击吧嗯所以它是改变了整个研究的节奏对效率和方式都会发生我觉得很根本性的变化嗯

这对你们后来带来什么样的改变在你经历了春节和春节之后的整个的冲击之后嗯你紧接下来做了什么其实我觉得紧接下来做的事情就是

嗯搞明白就是嗯 Why is it that code is so powe rful?

And how do you make the code so powe rful

Oh, For

exam ple, data acco rding to the above and below text, even data of 128K, you

can't find it.

But for exam ple, the data that can reach 128K to 1M, basi cally only has

two types of data, a kind of code data, and a kind of coll ection data.

But the coll ection data, its signal is too scat tered.

Code, its...

its...

文件之间的关联是更强的所以当你在一个这种长上下文依赖跟密集的一个数据学学去训练的时候模型它自然对长上下文的建模会更好对,这个

是我们可能在没有去意识到 agen t的这个事是那么重要的事情之前, 我们就去做的事情。

所以你可以理解为这个机座本身,它就为长上下文的能力和效率 ,效率很关键,效率我们待会再谈, 长上下文的能力和效率已经做好了充分的准备

,这个是在我们没有去受到这么大冲击的事情之前已经做了的。

但是春节后做的事情是你怎么去激发这样一个大的模型的潜力从扣了触发到外延到其他的场景因为其他场景是你迅了它会更稳定但你没迅它它能被泛化

只是说它没有那么稳定而一个顶尖模型的水平一定是要在更广泛的场景里面更稳定对所以 But the code is the

top line, and the other areas are the bottom line.

That's what I think.

So you have to do the long -term tasks of the code in a more dive rse

way.

So why is soft ware deve lopm ent so impo rtant?

Soft ware deve lopm ent is really a very long -term task.

Once you've done it, basi cally a lot of the mode l's gene ral feat ures

are alre ady good.

Not only are the mode l's gene ral feat ures good, but the fram ework itself

is also very well -tre ated.

像Pla n这种模式,像这种厂商到一定的阶段你要去压缩,压缩完过后第二天你要再去回顾你之前修改,这些框架的设计本身其实是为软件开发

做准备的 ,但这些框架它都是有方法性的,它都能方法到其他更难的厂商任务里边去。

然后所以就是春季新开后做的事情第一是一定要在A gent 场景里边把真的长程的任务给他续这个时候怎么去覆

盖更多领域我觉得就是要靠更多的靠群体的智慧就你让更多人去用它然后基于更多人去用的

比如说我们内部会大量去使用我们会让我们这个模型首先在公司内部去推大量去人用用了过后然后我们发掘到更广泛的场景在这个广泛的场景里边去

合成更多的数据来做训练对然后这里边很关键的一个问题是嗯你怎么还原当时所有人用这个事情的环境对因为有这

个环境你才能更好的去进行更长程的交互然后并且这个你们

现在是怎么做的?

现在才做的保密, 真的要保密。

和Ruo wood 设计。

我觉得等我们把这套范式给 skil ling 到一个很大的量级的时候, 我觉得我们会开源告诉大家。

但是做长程任务不是会中断吗?

其实真正的依照上下文里边, 基本上很少有任务是在做一个任务, 对,它通常是在做复杂的任务,对。

So you have to do a good job of foll owing the guid elin es.

当下阶段 ,当下阶段好。

我说当下可能就是当下一两周的阶段, 不代表未来两三周的阶段。

就是可能并不是真的要找到, 要把一招上下文塞满的任务。

当然你要找到那更好, 但是这个任务是很难的, 而且它的训练效率太低了。

就是你要训练完一招, 你要ro tter 完一整个 traj ecto ry, 一招的t raje ctor y,它非常慢。

哪怕我们现在的T PS能做到, 但是当你有在一兆的con tain

ser去训过一兆人, 预训练过并且后训练有对应的任务稍微激火他一下他通常就能在一照的Con vex里边

具备这样的一个能力但是我们需要再提升对需要再提升所以你看现在Cl oud在我觉得真的在一照上下文的能力的稳定度上基本上现

在只有C loud 4.6 Ops和 Sunl ight 是领先的其实其他像Ger mline像嗯,这边虽然仿称是厂商效果能力很好, 但其实都

是不行的 ,对。

你觉得量化里面挖掘因子会是好的厂商任务吗?

嗯,看做是什么资产,对。

就是有很多资产它的 reward 太...

太...

嗯。

因为它回测是没有价值的然后你要到真实的环境里面去run的话它有可能不是短期的因素而是一些更长期的因素或一些额外的一些 alpha

本身被这个模型嵌入不进去的一些东西所以得选资产就是选对 I think this is OK.

Rega rding your new model, we'll talk about it later.

Let's finish talk ing about the topic of open cloud.

What do you think about open cloud?

How does it live?

And I clea rly feel that it's more popu lar in China than in the US.

Why is that?

I saw anot her inte rest ing saying called "Wes t-Ea st-E ast".

What's that?

West -Eas t-Ea st.

West -Eas t-Ea st.

因为我不了解湾曲对它的热度,所以我仅从你的视角, 仅从我自己以及我身边人的视角, 我觉得可能的一个原因是, 就中国的

开发者我觉得是更多的, 就是我说开发者是指他可以用cod e去提升他的效率的场景, 可能是, 要求更急迫的

对要求更急迫的就我觉得对于效率的提升好像是我们的血液里边的东西然后所以我觉得当就Ope nCor e能把这个事给

效率提升给拿到极致所以我自己感觉这是它火的一部分的原因之一当然我觉得还有一个原因是我觉得跟国内大模型的发展也密切相关就

绝大部分的效率提升的场景目前确实 So you can expe rience it, it

will be more dyna mic.

He may spend ten doll ars on an API and can help you finish a thou

sand doll ars of work.

Then you must be very will ing to use it.

But if your API is so expe nsive, ten times or tens of times, the gap

in the middle is very small.

Then you will be very relu ctant to use such a comp lica ted thing.

To opti mize it.

But about agent, it's actu ally been a year, right?

When it came out last year, ever yone star ted to say this is the orig

inal year of agent.

Why did it start to get popu lar until now?

What do you think is the diff erence from last year?

I think what I said before was very ...

...

In my opin ion, it's not a thing.

It can only be cons idered as a...

a...

um

uh

去年上半年乃至下半年很多看似for agen t的模型, 它其实只是说我换了一个更复杂的模型, uh

uh system prob lems and 和理解环境交互的这样一个能力我觉得那

会儿只能是做到这个水平但是它根本没有达到工业级可用的能力最简单就是什么叫工业级可用就是你把它接到C ore Code 或Ope nCor

e里边去用你会发现它不可用它有很多问题对最简单它就理解不了这一套框架本身然后它也也没有针对这条框架本身, 人跟他的

交互范式会发生变化, 比如人跟他交互范式发生最大变化是, 人不再会去修改代码, 人不再会去关注, OK, 这一行代码出错了, 你帮我改一下,

就这样的 quer y是不会再出现的, 然后人只会提一些更高阶的, For exam ple, incr easing rest rict ions, clar

ifying needs, and people part icip ating in stru ctural desi gn, beca use many stru

ctural desi gns are still more huma n-or ient ed, and supp orting unde rsta nding

busi ness logic.

This is the value of skil ls.

Yes, busi ness logic is not avai lable in models them selv es, beca use there

are many busi ness logics that are

Right.

嗯所以所以我们在优化这一版模型的时候是完全放弃这些本身的我们基本上就不关注这些本身的了就嗯我们当当

你面临一个很大的范式的变化的时候其实只要你路径走对了其实你可以短暂非常短暂的一个窗口请你去物类评估因为因为你靠体感你就能立马测出来

一个非常大的质的差异对,但是当你慢慢迈入深水区的时候 ,还是需要一些非常精细的评估的。

So skil l是不是改变了模型的生态?

改变了模型在这种高...

高...

高流程复杂度的任务上的执行的准确率对因为它其实是定义了一套执行的规范对然后这套执行的规范是很难在预训链的

数据边具备的因为预训链数据边没有这种 inte rloa d的信息这些信息通常是大量企业内部自己去沉淀和积累的这种这种

嗯

Right.

但是Sk ills 也是在C loud 里面诞生的,对不对?

对,但是这就是出现一个问题,就是确实是O penC loud 把Ski lls这个事儿给带火的。

我说带火就是它让更多人去贡献Sk ills 这个社区 ,这个是非常关键的,因为 ...

...

这就是属于我觉得人跟A- SOUL 需要共处的地方对如果你没有那么多人高阶就是你没有那么多这种另类信息我觉得它确实另外

一种al pha 它是那种另类信息诶跟当前的 agen t共创的话,那么 agen t或说最顶尖模型的能力也很难发挥出来。

这也是你说的那个群体智能。

可以这么说。

人的经验变成sk ill变得如果更重要了, 它是不是预训练的一种补充?

对,因为预训练其实它大部分依赖的知识还是你在互联网上可访问到的知识。

但很多知识或说很多智能, 应该说很多智能, 我们是在互联网上访问不到的。

那么这个时候它就以另外一种形态出现,我觉得现在S kill s算是一种吧。

它其实提供了一种交互的方式,让人去主动贡献数据。

对,贡献更让模型执行任务的成功率更高的方式,对。

如果重新来定义一下所谓的, 因为我以前有Deep Seek Mome nt, 然后有O penE ye, 有Cha rgeBT Mome nt, 如果重新

定义一下, 这个所谓的Open Cloud Mome nt, 你会怎么定义它?

这个Mo ment 它会更时间, 时间线更长, 就是因为它前续的章节太久了, 大家不会觉得它是个新东西, 然后它后续的章节呢, 但是我觉得对我们已经信这个事情的

人而言, 比较be liev e这个事情而言, 我们反应是不是足够快的, 但我不知道其他人有没有f ollow up上, 对,所以就是从我的个人的

感官上, 就是这个 mome nt它会延续的时间更长, 更深远, 它不是, 这个更深远是说, 它可能能力更外放到更多人, 人能感受到的场景里边去

所以它更深远但是它这个流动是需要时间的对就它的能溢出的能量能力更强强很多比Chad Ball 他没有一个非常清晰的那么清晰的定义

像OE2 1它会有一个数学代码这种然后有光抽词的一个东西在这儿,O K,你服而上去了 ,模型就具备这个能力的像一个非常清晰的标

准的界定。

当然我觉得Azu re其实确实有很多场景你是需要有清晰标准系列的, 但大部分的场景是没有的。

比较混沌。

对对对, 所以然后它产生的价值也是慢慢的到一个临界点突然。

进一大步 ,其实靠 State and Ops确实是这样一个进一大步的突然的一个时间点, 但是Ot hrop ia做这

个事情, 这个路径也是持续了两年的 ,至少有两年的我们能看的。

那刚刚为什么这个事情不是 Othr opia 自己做出来的?

我觉得还是就一个开源一个避源的原因吧,就是避源的框架你是没有办法去洞察内部的, 设计的所以你没有办法利用大部分更多人的智

慧去改进它但开源就是你就可以用更多人的智慧去改进它可能也不符合 Anth ropi c对安全性的追求其实我现在觉得安全性绝大部分还是模型

本身应该去追求的事情对我们不能太过于去要求一个框架本身是过于安全的但是框架本身可以做非常多的事情但是我觉得开源跟安全性并

不冲突因为我们会把很多数据授权给Ope nCloud 如果我们把大量的个人隐私数据授权给它的话怎么缓解就是更多普通人对于安全性的这种

焦虑啊嗯,所以其实我, 我这,这是我为什么说要做开院的原因,就是 ,嗯。

I think there will be a day, and it should come soon.

Most simple tasks, except for those very diff icult tasks, in fact, there are many tasks

rela ted to priv acy that are not so diff icult.

In fact, you can do it loca lly.

You will have a port able, maybe port able, maybe in a cert ain scene, there is a

piece of 芯片对然后你所有的数据都在本地然后所有的涉及到隐私数据的

I

这个事儿激发了我自己对于比如说所谓端云混合也好所谓影色本地化也好有一些思考但是我觉得还很初步对因为这些思考不仅是需要

模型这一侧做非常多东西, 还需要本身架构这一层,然后一块往前走。

所以这也是我为什么觉得开源是如此重要的一个事情的原因,就是我觉得这需要更多人一块来做,而不是某一个公司就把它能做好的。

接下来你觉得我们会看到什么?

在Open Clou d已经火了这么几个月之后 ,就20 26年大家会继续它做什么?

国内已经有很多动作了,出现了各种的Clo ud。

包括你们 ,Memo Cloud。

其实所谓现在很多人都Cl oud, 只是让大家以一种不同的交互形态, 然后去访问到不同的模型和不同的一些的框架。

但是我觉得真正那种去让这个框架自迭代, 或者更强调自进化和自理的框架我觉得还没有大规模的诞生和出现然后以及你怎么去利用绝大部分

人的智慧去创造一个更强的框架也还没有出现这两层一层是框架本身的资金化一层是a gent 本身的资金化一层是a gent 跟人之间的资金化

我还没有看到就我们现在做的其实是怎么tr ain更好model for agent 以及怎么让age nt去适应这个m odel 对其实是在

做age nt跟m odel 之间的双向流动, 但还没有, 在框架层我觉得未来需要做的事情, 其实是怎么让框架自己进化, 以及框架跟人互相

进化。

这是你们现在的着重大致的方向?

对,我会去深入研究的事情。

你觉得现在没有做到的核心的缺陷在哪里?

就可能补足了某一个短板, 它也许就能成了?

缺陷是我们刚做到这里,我也不知道我说不定做不做, 反正我觉得只是因为时间远 ,因为我们刚做到这里而已 ,然后未来的加速度是会很快的。

I think it should be defi ned like this.

As long as you have a non- conv eyor, very effi cient model manu fact urer,

and they are doing a very good job of coding during the pre- trai ning stage,

they have such a model.

This model can be at least, I hope, I think at least one T or more.

As long as there is such a model, 入场券的人基本上都处于同一水平线去做这个事情。

当然我说 Bigg ie肯定是走到前面了, 我只是说目前上一个时代的成功并不意味着下一个时代的领先, 现在基本上大家在同一水平线。

这是一个什么样的时代?A

时代?A gent 的时代怎么定义它?

就是,我觉得就是生产力加速变革的时代,对。

今年生产力会爆发 ,对吧?

嗯,对, 从最,就是大家会觉得很多工作不需要自己做了,这是最直接的感受。

从只要你接触到这个事情过后,你又发现你的好多工作都会被替代掉。

那么这个时候人应该去思考 ,就是说到底自己的意义和价值是什么。

所以Ag ent能做什么样的高价值任务是变得更重要的。

嗯

Right.

但另外一个演变角度是说, 你是要做一个对全社会更有益的,对所有人都有帮助的一个模型 ,那么就不应该服更高价值的场景去做,而是让所有人

都能感受到这个模型的智能水平,那么它可能是另外一种做法了 ,有可能是另外一种做法,对。

是一个普世度更高的人可能会更好。

对,就比如说在这种场景里边,你就更需要在乎, 多么太因为在更广泛场景里边多么太尤其是对于视频的理解对于一些更细微的环境的理解

然后它是更关键的然后以及就是要注重成本成本是产生革命非常重要的因素就你不能说你完成一个任务要花一千刀对吧那我觉得很多任务场景

How do you define

2026?

I think it's hard for me to define it.

Beca use I think two months have alre ady been a huge change for me.

I think what we did in the past two weeks is hard for us to beli

eve.

So I don't even know what will happen in the next year.

It's basi cally in this ...

...

高度幸福的状态。

我很好奇 ,就是从 2022 年底CH P诞生, 然后当时大家就觉得AI一定是生产力革命, 到今天, 就发展三年, 你觉得它带来了哪些先决条件, 让今天的

生产力爆发可能成为一个更可能的时间点, 就是它的哪些条件变得成熟了?

就我觉得第一个关键点是, 不再是算法工程师在做这个事情了。

我自己会把这个事儿觉得是一个非常有标志性的节点。

就之前是你会觉得只有...

只有...

rese archer 或说算法的人在去考虑怎么去提升智能水平但你现在会发现还会有就是所有懂写代码人都在一块去考虑去提升模型

去提升这整个东西的智能水平我觉得这是最主要的差异就不管是它是在写 skil ls也好去盖ag ent的框架也好嗯

还是去设计更好的研究范式也好这是三个层面其实我觉得是所有人都在让自己的智能去加速这个事情这是我认为最大的一个变化嗯

我突然想到Pic 去年底的那一期播客里的最后一句话, 他就说a gent 的进化需要所有人参与。

对,所以很快就。

现在是让我有这种感觉, 而且现在其实现在已经是了, 只是现在唯一没发生的就是我刚刚说的, agen t跟人怎么更好的 ,更加速, 更加速, 因为ag

ent也要自迭代 ,人也要自迭代。

和我聊天吧。

对聊天是一种然后那会不会有一些更自然的方式你有一些思考就比如说我要是真的能带一个非常好的设备一整天跟着我然后我所有说的话

我见过的人他都知道我觉得他进步速度应该比我快我自己认为他应该比我快, 因为他会比我依赖的算力会更多,然后他会很快替代我 ,对,而且他不会

今天记得明天不记得,他是非常稳定的,而且他是只有进化的一条曲线, 而且他乐此不疲, 他不需要休息。

你刚刚提到那个说国内的人有Omo clon e更热情 ,那完全人现在是怎么评价的?

模型公司的人不是很car e这个东西,我感觉。

模型公司的人不是很car e这个东西。

哦。

哦。

OK,那真的跟我们妈不一样。

她可能觉得这个事情不难。

我一开始也觉得这个事情不难。

然后到后面我就觉得它整个 A-SI M的设计是非常巧妙的。

我说这个巧妙是指我觉得它弥补了很多模型短板。

它是怎么精巧巧妙地去构建的这个编排啊?

我怀疑这个原因是它最开始是基于C loud 的上一代模型去做的。

就靠的上一代模型 4.5哪怕是OPS, Sunn et其实是不够那么强的, 所以你就要必须在系统的设计上, 系统的框架的设计上, 你要设计得更精细

一点, 去把它这个短板给补起来, 对, 然后这就导致了O PS进步了, 但是国内的大部分的模型可能刚靠近靠的4.5, Sunn et和O

PS的水平, 然后反而这两个在这握手了我觉得是这样一个原因那如果模型能提高的话它这些金角偏排还需要吗还是需要的就是出于对成本的考量是需要的

就是我们永远会去追求一个成本和效率最低的一个一套方案这个是生产力革命的非常前置的要求所以不可能说我们所有的场景都用最顶尖的模型,因为

它太贵了。

所以更有可能是a gent 在进化, 模型在进化,然后模型进化的方式有可能是同一个水平的模型在越变越小 ,它也是一种进化。

虽然我们没有在做这样的事情,但它确实是一种方式。

嗯

所以它其实让不那么好的模型有了更好发挥的空间。

对,它上线更高。

对。

所以其实更符合国内的叙事 ,对吧?

不知道国内叙事是什么,但是会让人很想用它, 让人很想用它替代自己的工作。

所以需要小尺寸的端册模型爆发吗?

这个趋势肯定会发生, 但是我觉得它不是二六年的一个主要的旋律, 它是一个支线,而且是会持续发生的事情。

二六年的主要旋律就是生产力的变化。

高生产力场景的持续突破, 所以我们要做更长程的任务, 然后然后更强调多益经的直接的协作, 因为更复杂的任务它不可能是单一A

gent 去做的, 但多益经的协作某种程度上也是为了成本的考量, 对,成本和时间的考量, 对,然后以及怎么去激发, 这个群体的智慧我现在觉

得现在市场上的现在已经看到的 Mult i-ag ent的工作都有点伪我说这个伪是说真的依赖于 Mult i-ag ent的能够实现

更好的最终的任务的完成率在这个伪度上我觉得是有点伪的但是它能提升嗯效率就是速度就是这个任务完成最终的速度以及它最终能够节省成本

这个是确定的Mu lti- agent 但我没有看到说 Mult i-ag ent一定最终能够实现一个更高上限的一个东西但它会发展只是我目

前还没有看到所以今年的叙事其实跟前三年已经发生了很大的变化了我自己是怎么感知到的

可能我们追求的事情是我自己觉

得什么时候能够超越自己吧。

我是这么去定义的。

因为我觉得我对A GI的一个定义会非常的模糊的一个原因就是因为, 我觉得没有必要去追求一个非常清晰的一个A GI的定义。

那AGI 发生的时候,所有人都会感知到的。

就是因为你发现每个人的生活, 你的生活方式,你的工作方式, 已经未知长达很长的时间, 已经慢慢地被它改变了。

所以在这个过程中 ,追求D AU,追求这些东西,它并不会改变我,它并不会促成这个目标 ,就是让这个模型代替我, 它并不会促成我这个目标,

所以我就完全没有在想这些事情。

而如果说我们去追求一些中间的目标 ,比如说你去追求 toke n消耗量 ,你去追求它完成更高价值的任务, 它是在往这个目标去靠近的

对因为要完成可能替代我自己的任务它确实是需要更多的图文消耗量它需要具备更复杂的con text 它需要去调动其他的智能水平反对管理

其实就是要去调动其他的智能水平对所以所以

- 这些事情就是我想象的是

我们应该让这个模型结合一套框架本身应该去完成这些事情和任务而不是去追求另外一个叙事上的事情所以我就没有太理解他们那个叙事吧你说DA

U的叙事是吧对就是我自己觉得这个叙事就不太符合我自己的我们做研究的一个路径过去两个月你觉得你的生活发生了什么样的变化生活就是

亢奋还有亢奋,就是你感觉每天都会发现,A ge的框架本身或模型本身又进步了。

所以今年带着给你很强的Aha mome nt。

这个可能比过去T ripl e的更强。

对,而且它是持续的,就它持续的, 就你感觉它停不下来,这是比较大的变化。

我觉得R E可能就是那一阵儿,就你去体验它的那一刻 ,你用到它了,然后你发现它具备很好的思考能力了, 然后这个思考能力从科罗根 Mass的,

外放到其他领域了。

也就是那一刻,然后那一刻完过后, 你没有感觉它有持续性。

在Age nt这个事上, 你会觉得它一直在持续。

我觉得这种持续性是, 是完全不一样的感受, 因为有这样的持续性, 所以你会更坚信这个事, 它在全面加速。

有什么样的一个任务, 是你过去觉得它绝对不可能做到, 但是今天可以做到的?

就蓄模型这个事, 我自己觉得以前我认为是很难的。

因为,

嗯

嗯这个时候你再去跟他讨论同样的to pic的时候,

你发现他跟你一样聪明, 就这个时候是很残酷的。

就我之前认为我们自己做的工作已经是足够有创造力, 足够不会被ski ll化, 不会被w orkf low化的, 但我现在发现他竟然也能, 然后也就

是说可能过一段时间他真的能运一个, 我们能运出来的模型他也能运出来了。

那他可不可以迅速更强的模型呢?

然后他就自己左脚踩右脚就提升了呢?

我觉得这个事情是很有可能发生的。

这个可能是一个非常大的转变。

对,所以他可能真的能依靠于他自己产生更强的智能。

它先吸收所有人的智能,然后再靠自己产生更强的智能。

我觉得这个事肯定是就在这一两年发生的事情。

我刚才听你的整个描述,我会有一种感觉, 我觉得你迅模型的方式好像和你管团队的方式有某种相似性。

嗯,主要的原因是 ,他确实需要群体智能。

对。

不是个人英雄主义吗?

当然不是 ,当然不是。

就是他需要每个环节上都是足够be liev e和极致的人。

对。

什么叫群体智能在模型训练上?

可能不同的age nt他需要有自己的con text。

有自己c onte xt的原因是,嗯。

当模型能力没有那么强的时候, 有自己的独立的c onte xt, 它会更专注, 对, 专注还是蛮重要的, 就你的c onte xt不被混乱, 然后它能

完成得更准, 然后, 所以就是你可以以为, 我们现在去模型, 可能需要非常懂英法人, 然后去, 嗯, 写一套非常好的训练或推理的架构, 然后需要

他从推理的视野去倒推, 跟做能懂模型评估, 以及模型训练人一块去定一个非常好的模型结构, 有这样一个中间的 coll ege的合作, 然后这个

非常懂模型训练和懂模型评估的人, 又要学会去跟做数据的同学去, 进入了去沟通, 说OK我们要赋予模型什么样的能力, 我们需要去构造什么样的数据,

然后同时呢,做数据这一群人,他又同时需要参与预训练跟后训练,因为预训练跟后训练他的数据的 sens e是通的。

对,然后这里边其实你要真分的话还是有很多 sub- agen t的,但这些su b-ag ent之间,他们的con text 有独立的地方,也

有关联的地方。

然后我觉得这样一套复杂的框架,现在目前看起来是能够被模拟出来的。

确实能够被模拟出来的。

然后这也是我为什么我自己玩Ope nCod e的第二天, 我就开始让他去, 当时我在家嘛, 然后我就让我家里边的每个人, 就我爸爸我妈妈, 然后我老公,

然后嗯。

每个人都有一个自己的Sa voy军队,我们打到一个飞速区, 每个人也可以自己跟自己的独立的S avoy 军队去聊天,然后他自己进化,然后

我就会在那个群里面委派一个任务给他们的S avoy 军队,让他们赶, 因为我们的con text 是不一样的,然后让他干却的时候, 因为他有

更好的c onte xt,所以他会干得更好。

也就是这样一个很粗浅的尝试, 我相信就是这个事应该, 就同样很简单的事情, 它换到一个更高复杂度, 更有创造力的场景, 只要模型的能力跟一种框架

本身在进化, 应该也是可能做到的。

我想到刚才有一个点, 就是关于框架, 你要不要有一个完整的表述, 就是智能体的框架?

智能体的框架, 其实智能体的框架, 我认为是一个现在, 诶,就有很多形容词去形容它,比如说Har ris, Scaf old, 然后还有

一些其他形容词, 就我没有特别去专注说哪个形容词是更准确的 ,对,然后我更关注的是这个框架本身它带来的一些差异化的优势是什么 ,嗯,然

后...

后...

就比如说我认为一个非常好的框架, 它其实应该是去尽量去弥补在行动上的缺陷的。

很多东西都是在弥补行动上的缺陷就比如说很好me mory 系统是弥补行动上的缺陷然后接悟到了更多的广泛的 mess age的 chan

nel是弥补行动上的缺陷然后以及他更主动他更主动不管是定时任务的主动还是他有些其他方式一些主动的设计以及他自我去更新迭代

其实这些都是在弥补行动上的缺陷因为大模型是你给它越好的 cont ext, 它肯定执行的效果越高。

所以你要是能把这些它获取不到的c onte xt, 这些行动上的co ntex t都给它, 那么它肯定会完成得更好。

嗯所以这是我看一个好的框架的时候我会看它有没有这些要素然后那么当然这里边还有一个很关键的一环是是评估就是一个好的框架本身

它确实是需要有个很好的可泛化的一个一套评估体系的对然后这样它才可能自迭代然后这里边是现在已有的评估体系其实都非常的简单

它只是为了防止它不出致命性的错误对然后那我们怎么有一个更有泛化力的一套评估体系然后来促进这一套框架的自体其实现在是把最高阶段的群人当评估

就是呃你交给他一个更难的任务, 更高价值场景的任务,然后他完成不了,你会给他提供补充信息嘛,然后你也会给他指出在哪儿错了

,然后p ush他经过更多人的教会能把这个任务给完成。

所以其实本身上现在是这群人在当评估,但是这个评估会慢慢地被框架吸收。

框架会设计很多东西来确保在某些确定的场景我们能凭准同时也会被模型能力吸收就模型会学会像人一样当我采用这个方法或思路做到这儿平静的

或者说怎么怎么样它会自己采取另外一种思路或者说自己去反思就像人一样去反思当然了它是不是接触它自己还是它是去接触一个更su per的

agent 或者说它是去接触一个更s uper 的agent 还是一个其他领域的子 agent 那都是有可能的但这个是目前这些框架还没有太具,

其实最近一个月已经有一些框架在去关注这些事情了。

因为在O penC loud 发了之后, 就国内的很多团队都推出了类似的产品, 你觉得他们有不同吗?

比如说Q Q的团队有,你们团队有, Kimi有, Mini max有, 他们有什么不一样?

我大概只试了一半 ,对,只试了一半, 我觉得大同小异, 就是让, 这个大同小异真的就是让O penC loud, 变成一个 lay char t的形态

让你去感受到。

我还没有看到一个我自己觉得至少在改 Agen 的框架本身, 我觉得你这种产品你知道要去叠代框架本身吧, 还没有看到一个比Ope nCra wl开源

社区进步更快的。

因为Op enCr awl开源社区进步太快了, 然后我还没有看到比这个开源社区进步得更快的这样一个 Agen 的框架或说产品出现,我还没看到。

所以我宁愿用最新的Ope nCra wl, 你看 Open Cloud 不久之后就卖给了 OpenAI 你觉得是为什么呀为什么就是这种

非常不错的产品公司最后还是并给了模型公司这是不是说明没有模型做产品还是比较难呢对觉得就这两个应该是一定要深度恶火的一个事情

然后但很好是 Open Clou d它开源的这个事儿没变,所以你还是可以在这套框架的机构上, 大家一块去设计更好的一件的架构,

所以这个事儿本身没变,只是说可能做这个事儿的一部分人的立场变了而已。

嗯那我们来接着聊聊

模型。

上次我们聊天其实是在你们的VR Flas h发了之后, 这次已经又发了三个新模型 Pro, Omni 和TTS, 并且你把它称之为一次悄无声息的腹肌。

为什么这么说呀?

为什么是悄无声息的又为什么是腹肌?

首先它这三个模型它在Ag en的场景下表现能力提升这么快, 或者我们能这么快去追上在 ...

...

然后第二个就是嗯

其实在一年前去做这么多模态的时候, 其实更多的角度还是说, 如果真正产生智能, 应该这个智能是全风味的, 多方面的, 所以去做了对多模态的一个

理解, 以及最终你智能最终要产生价值, 一定是要有交互的, 所以要去做语音的生成,对。

但这只是 ,但一年前做这些东西的时候它还不是很明朗 ,就你还是觉得你还是在做一个单一的模型, 你在做一个动态理解模型, 你在做一个语言的

生成模型 ,然后你没有觉得这些东西它能够很好的去被组织和编排到一起。

然后当我看到Op enCo re的时候我自己一下就想到这样的一个画面就是这些模型在各自在什么样的环节发挥什么样的作用它们能够

怎么被有效的编排然后以及它会产生一个什么样大的生态价值一下我觉得就在我的脑子里边就全部给打通了所以我们快速的让所有方向都要面临

到这个范式去做后续链的针对的设计嗯就是这个原因所以你现在如果能在Ope nCore 和Cor eCor e里边同时用这几个模型的话

你会发现把它串起来很好用嗯就很肯定比用其他家模型可能好用一些然后或者说至少这是我们往后迈进的一个目标那为什么

还是后面这三个模型不是合到一个模型里边去我觉得更多的就是出于对于成本和速度和价格的一个考量就比如说语音生成你没有必要去用一个一体的模型

它的实验你也接受不了对然后比如说多么他要理解他是不是值得一个更大的模型然后那么这个事我觉得都是要去打个问号的然后因为

我觉得A zure 的革命

嗯。

首先从任务类型来说,比如说你最简单的绝大部分的任务类型, 你其实是可以只用语言模型来做的对然后但是因为现在我们完成

整个任务的环节太长了在某些环节上如果你意识到你是需要调用你其他像人一样感官能力的时候然后你就去用另外一个更精巧的模型让他来做得更好那是这样的

而且因为这三个模型是同一个生态训的所以你能知道它们的八卦的你知道我知道的知识它也是知道的所以你能放心的把你觉得它能完成的任务交给它做

你不会担心它不知道你有的背景知识这个背景知识是来自于训练的目前这些三个模型在同一个 AGM框架里边去释放出来的潜力跟你去组装其他模型的

释放出来的潜力的差距是很微弱的目前是很微弱的, 但我认为未来不会 ,因为未来它是一个效果成本效率三者的一个成绩,就未来你不会觉得,

但是目前你会觉得它是微弱的。

这三个模型你们在 BAT什么样?这

么样?这三个模型的关系是什么样?

就我觉得在BAT 全方面去替代人的生活和工作的方方面面,所以你就必须要具备这些能力。

你看,P ro,我觉得它是在做理解和认知。

做更复杂的调度。

Omni 是在做感知。

TTS是在做音频。

声音的输出。

声音的输出,它是一种表达。

对。

这三个加起来是一种类人的智能吗?

反正它把人有的智能的表象, 输入和输出给建模了对但是它有没有人的各个感官之间的协同那么好我认为现在还没有做到但这也不纯粹是模

型上没有做到还有就是框架上也没有做到就比如说现在Op enColo 它对于视频的理解和建模是非常差的它整套架构为什么呢因为就是因为开源

社区没有一套对于音视频联合理解的非常好的开源模型的出现然后并且这个模型还有很强的AZ的能力就没有这样的模型出现所以它在框架上的发展是之后的所以它现

在对视频的理解会回退到去理解图甚至到最终会回退到理解C apti on上就回退到一个成本的智能水平上所以这也是为什么要做开源的原因

就是因为只有开源界看到一个更强的视频理解的声音声音生成的这样的一些模型过后它对应的框架才会发生改变对然后只有这两个

就框架其实它是一个协调层吧对只有这个协调这一层然后以及这个模型这个智能的中枢这一层这两层很好的交融的时候那么可能才会达到

内人的智能嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯这个模型架构本身有一个非常关键的一个目标就是我们要for non- conv ex的效率来设计模型结构嗯

当时是有隐隐约约预感到A gena l时代N on-C onve x是非常重要的, 或说有预感到No n-Co nvex 会产生智能的, 但是我们

没有预想到会不会是Ope n-Cl oak, 就是这种形式, 但是已经预感到N on-C onve x一定是一个非常重要的问题, 然后那么

Non- Conv ex的效果以及最关键的推理效率, 就是你的成本和你的速度要很快, 嗯。

成本高低速度够快那么就是我们这一代模型结构必须要去追求永恒的命题因为你成本高低速度够快你有可能可以把1 兆做到1 0兆升级 100兆

其实现在所有的模型结构它都能迅到100兆但它为啥不把这个模型提供10 0兆的推理除了效果一般以外我觉得更多是出于对成本的考量就100 兆太贵了

就是你可能到后边 1兆过后到100 兆这个范围内它非常贵贵到你根本就不想用它对所以就是我们当时就围绕着这样的一个核心目标去设计了这个就是Hy

brid Rete ntio n的结构当时其实另外一个更主流的选择是用 MIA 就包括现在我觉得同期跟我们开始训练的应该是J OM跟K IMI

KIMI 更早一些 KR更早一些然后其实他们都选择了MIA 就Deep Seek的其实MI 对于Ch art的时代来说确实是一个非常优秀的模型结构

因为它甚至它对于常文来说也算是一个还不错的模型结构因为它大量去减少了KV cache 然后对于常文来说你的KV cach e很宝贵

然后但是它有一个我认为是不那么去适合Az ure的这个范式的一个最根本性的几个要点第一个就是嗯 It's actu ally

beca use at the begi nning of the desi gn, MA was desi gned to achi

eve a good prop ortion of stor age and calc ulat ion.

In the pres ent, 当时的H 系列的芯片上,为了实现一个更高的一个,就是我既不浪费我的算力,又不浪费我的,又要把那个仿

存的瓶颈给打破。

所以是在这样一个架构下设计的,然后在这样一个架构下设计出来的模型架构,它没有任何可发挥的空间。

模子可发挥的空间是指,假设我们认为KVC ache 是重要的, 并且我认为推理速度也是重要的那我能不能用一些让它推理加速的方式比如说最简单的推

销编码 MTP就是一种方式然后让它实际上推理的时候加速N多倍但是MA 是不太行的因为MA 它已经达到一个 L L-bo und

and memory bound are very perf ect links.

If you use MTP, you will find that it is stuck on the comp uting bound.

So now you see all the MA model stru ctur es, whet her it is GMA

or KME, they are 我猜測應該都沒有上MTP, 因為它上了過後它就被計算棒的, 然後計算棒的它就很不划算, 所以它的模型都會

慢一些, 你會覺得大家對M IMO的, 我們第一代Fla sh, 哪怕是F lash 能做到1 00到1 50TPS, 然後Pr o現在我們也能做到,

就看成本哈, 看成本, 因为基本上是能做到60到 100的, 100T PS肯定会更贵一些, 所以大家用MIM O的, 不管是用 Flash Air

Pro的一个感觉是, 哇,好快, 然后这就是这个结构, 尤其是针对Non -Col ored Simu lati on的结构, 带来的一个优势, 然后同时呢,

它成本有够低,因为Hyb rid Tens ion, 包括在P ro这一代上, 我们给它拉到一个更极致的 Hybr id比例, 就它的F ull层

跟Sid ing Wind ow层的比例会更极致, 达到了7 比1的一个比例, 所以它更省KV Cache, 所以我们基本上是在这一代

结构上实现了, 通过Si ding Window Tens ion去减少KV Cache, 让它在长稳上效果更好, 能够支持更长的长上下文

然后同时通过MTP 把Sid ywin d的au toma tion 节省的那个算力节省的那些aut omat ion的算力然后把用 MTP给它填上

这样子它能达到一个在实际推理的时候这个仿存跟计算的一个很好的平衡然后同时又去兼顾了呃呃长上下温的成本然后以及它的推速度

所以嗯虽然我们设计模型之后没想那么多但是基本上就完美的非常适合做Ageno 因为Ag eno 对Age no来说长上下温非常关键然后很小

的QV cach e也很关键因为哎你很小的QV cache 你能做更多的多节的缓存缓存命中的话会非常有利于节省你的呃推理的成本,然后再起次又

是速度是一个还蛮关键的一个命题, 然后你一旦体验到了更快的模型,以及智能水平相当的更快的模型,你就回不到那个更慢的模型的水平了。

所以我觉得MIMO V2 Flas h和Pr o大概是这样在这样一个背景下我们同期的开始去进行

训练的。

放在当时 ,你当时为什么会选择MT P啊?

然后我们在我们自己的那一代的推理卡上去实际的去设计推理的并行方案的时候发

现它的计算剩余的实在太多太多了就我们没有想到它会剩余这么多然后所以那你就想的是怎么把这些剩余的计算给它有效利用起来那么MT P太适合了

But the reason why we added MTP during the pre- trai ning stage is that it

can indeed impr ove the abil ity of the mach ine.

This is the same as Deep Seq.

Pre- trai ning and MTP are beca use MTP can impr ove its abil ity to

make mach ines.

The reason why we only use MTP during the push is beca use our model stru

cture is natu rally rich in comp uting.

This is what we sudd enly missed when we desi gned the push stru cture in

the back.

但是也不是突然有天,就是你去仔细地去算, 算那个推理的各方面的一些数字的时候你就知道,然后你可以用推下边吧 ,然后把这些生命的算力给

利用起来 ,恰好我们又训了 MTB3 ,那恰好用起来了 ,就其实很自然的一个探索的眼神。

为什么它还没有成为一个主流?

大家太...

相信MA了我觉得大家太相信MA了就是大家因为MA 它确实太巧妙了就它在模型结构上吧它能做到的全做到极致了所以在我觉得二五

年上半年如果要去训模型的话训练一个机座模型的话那么其实 MI 确实是一个不错的选择尤其是当没有看到 Non- convex 的价值和 agent 的这个范

式的时候 MI 确实是一个非常不错的选择对那它未来会成为主流吗你觉得?

我觉得应该不会。

还是不会?

MA应该不会。

我说MTP。

MTP如果说,就看大家的下一代模型结构是什么样。

我觉得现在模型结构设计大概有两个趋势, 一个就是你真的在运训练阶段, 你就想明白你后边推理的场景是什么。

For exam ple, what card should you push on?

And how many times should you push it?

What is the method of your reas oning?

You may even have to think about this.

Then you can design a perf ect stru cture for this scene, this reas oning meth

od, and this chip.

Then you go to train this stru cture.

Then its effi cien cy, cost, and all aspe cts must be the best.

AMA is desi gned under such a cont ext.

But...

This cont ext is based on two main crit eria.

The first one is that post -train is not impo rtant.

Or the post -train time is very short.

You can finish post -train in a month.

You spend most of your time on prin t-tr ain.

So you only need prin t-tr ain for the push itse lf.

The second is that your push card is always used in such a way 一个两个 ,甚至有

那一个就是最好的。

但这个事儿在当下是在发生了巨大变化的, 因为现在是Pos ter Trai n的周期在拉长, 你在一代技术上能做到Po ster Trai

n的上限, 是远远被激发出来的。

这是什么时候发生的?

就是A- Gene 的这个范式带来的。

你有一个更高效的 cont ext的, 其实co ntex t越长它也是产生智能的方式嘛你的模型能够被输入进更多的con text 理解更多 cont

ext的时候那么你的潜力就越高这个跟原来cha rt的这个方式是完全不一样原来ch art的方式它的co ntex t就是人数的人数的就是很短所以它纯

靠这个预训链但是Ag ent这个范式他就是很吃 Post -Str eam 你对于框架理解对于怎么去所有多元型的协作那些法则也好

反正他你肯定以为就是我们在Pos t-St ream 上要去投入的算力会可能跟 Prin t-St ream 是相当的

So

如果还是这样去做模型结构, 它可能会失去一定的灵巧性。

嗯但是呢如果说他的这个团队的 Post -Train 的效率足够跟得上嗯他的认知是能够这个 Post -Train 的认知是能够辅助

Print Train 去做架构的正确的判断的话那么有可能这种模式还是 Work 的就他设计一个精细的结构想清楚推理卡类型想清楚场景

那么他应该还是 Work 的对然后嗯但还有一种做结构的方式是另外一种, 就是我在结构上更简洁一些, 然后留有更多的富裕度,

来去做后续在不同场景的一个适应和增强, 就比如说我觉得H ybrid Tens ion, 它就是一个更简洁的结构, 你可能它的简洁性体验在,

你可以靠 MTP去做, 去把它的这个算力给它, 来做一个更简洁的结构, 更充分的利用对然后也可以是后边你甚至于针对已经训练好的一个

Hybr id的结构去增大 Spots for the比例等等反正就我觉得在这样一个更简洁的架构上的时候其实你已经能发挥的空间反而

在后训练发挥的空间反而会更大成本下降是MTP 给NAS Token Pred iction 带来的优势吗 MTP是如果它的命中率非常高的话那么它是

可以带来成本的下降的相对于它在更短的时间内吐出了更多token 所以它把 GPU的利用率打得更高所以它本身上是在降低单t oken的伸展了成本

你刚才说了MTP 的很多好处啊那它会相应的带来一些幻觉吗不会 MTP它是因为它是会被ve rify的然后只有你预测的准我才会踩烂你当前 toke

n的结果所以它没有任何幻觉好刚才我们重点聊的是 Flas h上面用的MTP 那MTP 你们还做了一些选择,就比如说混合注意力机制,你们

当时选的是五层滑动窗口和全局注意力机制, 你们这次其实有变了?

应该说是这样子, 可能我们的一个大致的大量的实验的一个结论是说, 服务腾讯它的层数很重要, 但是它的系数比反而可以有空间,就比如说,

嗯 atte ntion

to head 的时候可能我们也可以做到跟稀疏的一个比例对应该是这两个简论的一个统一对导致我们可以在更大

的模型上做更高的稀疏比就是富尔跟斯泰尼云的稀疏比然后我们最近在做很多SP AS的研究也是发现更大的模型它能够吃更大的att ention

to spas ity的比例对就更大的模型可以更稀疏然后好但你小的模型你太稀疏了你就模型效果就会 drop

得非常严重对所以这是一个实验结果它不会成为一个固定的标准这是我们的实验结果然后我不确定其他家是不是也fol low 也赞同同样的

也会有同样的实验结果对我觉得F lash 还蛮有一点小米早期的风格的因为就是追求极致性价比嘛这个是怎么定的呀?

因为你们当时AP I的定价是输入是百万tok en1.

01美金然后输出是每百万 toke n0.3美金在当时看来肯定是最低的价格最高的速度你觉得当时是做对了什么达到这个效果?

对 Basi cally, we did ever ything we could.

We have a non- class, very effi cient arch itec ture.

Plus MTV can be acce lera ted.

And then we did the basic infr astr ucture of Infer.

Basi cally, we can do this.

I think in the pre- trai ning era, based on the model, 框架优势来定价确实是合理的

因为你的框架很强最终使用者最终用户能感受到其实纯粹是因为你的模型很强所以我就按照你的模型结构的方式来去进行定价,我觉得是合理的。

但是当我们进入到后训练的方式,然后后训练的方式是除了这个模型结构本身带来的优势以外,你还看你的c onte xt好不好。

以及你这个模型对这个co nveyor 理解能力好不好所以我觉得它的定价逻辑应该发生变化就不应该是根据我最终的这个推理成本来定价而应该是

根据我这个模型的最终产生的价值来进行定价那么这个价值除了模型本身的 I think that's the adva ntage of the

arch itec ture.

And the model has done a good job on the back -end chain, so it can

better unde rstand the fram ework.

This is also a place where it has a price range.

So we, MemoVR Pro, actu ally aban doned such a pric ing logic.

I saw Flash in your attack plug.

Did you want to bet on reas oning, codi ng, and agen tic from the begi

nning?

I think I should not be too 至少我们那时是想不到更多的目标的。

我也不认为一个价格本身的目标应该太过复杂, 因为价格目标太过复杂, 就是你的限制条件太多, 那么如果这些限制条件最后, 你的po st-t

ree要做很久, 做到这些限制条件 ,它都变成很伪的限制条件, 那你这个结构不就白做了吗?

对,所以我们没有对最开始的模型结构给强加更多的目标, 我认为加更多目标是不合理的。

Flas h帮你验证了什么?

Flas h帮我们验证了我们整个i nfra -s数据是没有问题的, 但是我们并没有说先训fl ash再训pro ,是两个一块训的。

但fla sh是一个相对小的工作, 比较早期。

也不早起 ,我们训练就发了 ,所以你们看到的时候,也就是我们 ,对,没有归还很早,我们基本上大部分的模型训练都是在下半年进行的 ,对。

训练的下半年,从 slas h到pr o,你对 pro的预期是什么样的呀?

当然那是同一时间。

对,就是两个模型同步训练, 我们相信这一代的架构是没问题的, 只是我们在训普洱的中组的过程中, 去解决了非常多的, 比如说训练数值的不稳定性,

对,这个是训跟E T参数量级的模型, 通常会遇到的很s trug gle的问题, 对,老训训训着l oss spike, 老训训训着ok,

某个激活值很大, 然后那你要考虑怎么去, Or some expe rt's dist ribu tion beco mes extr eme.

Like a ceil ing, a batch of tokens will go over, and anot her batch will

go to anot her expe rt.

It's very dang erous.

These sign als are dang erous.

It will cause trai ning to appe ar.

For exam ple, lots of spikes will appe ar.

The supply will be very unba lanc ed.

The supply of expe rts will be very unba lanc ed.

然后这些要素就会非常锻炼一个团队的音法。

和算法中联合de bug的能力甚至有时候你怀疑到是不是哪个卡有问题就是最后如果发现所有的卡都排查了没有问题你会怀疑是不是今天的太阳黑暴风

就你会一直怀疑到一些很玄学的问题上就你要从很表层然后查到很底层的因素对你刚才也提到 ET的模型可能是未来竞争的一个入场圈是这样吗

It's an agent.

You have to do it close to the 4.6 Ops level of Cloud.

You didn't have this model when you were at Lixi ang, right?

Why did you think it had to be ET?

First of all, I've trai ned a model with a deep -sea V3 of this size,

more than 600, more than 700B.

You don't want to train the same model again.

It must cont inue to go down.

So ET is a...

a...

嗯,在我们当时也有的卡的数量情况下的一个比较极限的一个区间,对, 嗯,是多少卡?

几千卡, 反正,迅这个模型是几千卡 ,但实际上我们要投入大量的卡去做研究。

嗯,所以其实实际上的研究的卡会是实际训练卡的几倍 ,训练比如说Mimo VR Pro和 Flas h,其实

各自训练可能几千卡就够了 ,但实际上你去投入做模型研究的卡会是这个卡的很多倍,嗯, 我觉得三到五倍是一个更好的区间。

嗯就是不管是你前期的结构的研究然后中后期的po st-t rain 的很多算法上的研究所以不是说我们拥有几箱卡就足以去做这个事情

而是说至少我觉得在卡的资源和储备上目前来看尤其在a gent 的范式下其实卡的数量反而变成一个非常重要的一个瓶颈因为id

ea的《大生》和这个《大生》动手,你把它代码写出来, 太快了, 然后你现在卡在什么呢?

卡在卡上 ,因为G PU它的效率就在那, 所以你要为了去验这个ID 而去跑实验, 然后你要并线的起很多实验 ,所以卡在卡的瓶颈上, 所以现在卡反而变

成一个更关键的一个制约项, 当然这只是for 训练,那 for推理的话卡更是一个更关键因素,对。

对,就推理卡的需求让语言比训练会更高很多。

训练、推理和实验这个最好是几比几?

推理看看用户数。

Or you can look at the token count cons umed by high -value scen arios.

So many scen arios are just a matter of time.

So let's look at the reas oning.

If we look at it this way, for rese arch, for print and for post -tra

in, I think a reas onable card ratio is 3:1:1.

How much is the ratio betw een the pre- trai ning and post -tra

ining?

At least in the curr ent era, it's a very exag gera ted ratio of 3:1

to 5:1.

This is a big change that might happen this year.

Many teams should be 1:1.

The top teams should be 1:1.

What is the chal lenge of trai ning a one- on-one model?

I think it's a full -scale chal lenge.

Basi cally a full -scale chal lenge.

数据上其实反而不是非常大的一个挑战的原因是, 更大模型 ,貓似對於更髒的數據的容忍程度更高。

但是呢, 但是我不確定,對 ,我不確定。

因為我們是同一批數據訓導 ,所以我不確定。

我只能說貓似。

然後應該更主要挑戰的是, 你在訓練的歷程當中, 遇到問題的時候, 你怎麼去, 我覺得第一不是你要發現問題, Right.

For exam ple, many teams will take loss spike as a normal thing.

But we might try to make it with out loss spike.

Right.

We think loss spike will defi nitely lead to some upda tes that are part icul

arly unst able.

Some values are very abno rmal.

We will dire ctly give some para meters or some expe rts to it.

After the para meter upda te, there will be no more tokens sent to XBird.

So you need a very strict moni toring system in the midd le.

You need to check what kind of chan ges have happ ened inside the model para

mete rs.

You need a moni toring system like this.

For exam ple, you need to see how XBir d's load is.

How is the input and output of each para meter?

Has its acti vation value become abno rmal?

These are things that you should look at after the Nort hpac inci dent.

But not all teams will look at it that clos ely.

This is the first step I ment ioned, to find out the prob lem.

Many people might not take it as a prob lem.

After you find out the prob lem, you think about what kind of reason it is

that leads to such a prob lem.

For exam ple, it could be a pencil case.

太高了, 导致比如说负二层输出跟s etting wind ow层的输出是至少数值上的差异是非常大的 ,那么这数字上的很大的差异就会导

致一些数值不稳定 ,有可能是结构的原因,也有可能纯粹就是i nfra bug, 比如说你哪通信的某个算子写错了。

We found that there might be some prob lems with the long.

The best solu tion is to clip the long to the long if the number is

too large.

There are many solu tions.

For exam ple, if you use LOM, I think it will defi nitely cause damage to

the model.

Clip is a way.

For exam ple, we will also use QK Clip to reduce the KB.

When QK's logics are very large, it really affe cts the trai ning stab ility of

the model.

You can only clip it.

At least this way, you can make the trai ning go bett er.

When it comes to a stable state, you let it go.

这些路径其实是非常考验一个团队的跨团队, 其实如果是在一个很大的公司,它就是跨团队的协作, 但这个协作效率是极低的。

你们属于

哪一边?

We are defi nitely a very extr eme type of team.

So it will lead to the trai ning cycle being prol onged.

The trai ning cycle will not be comp leted in a month or two.

So in the case of the trai ning cycle being prol onged, 如果说有一个非常明确的一个dea

dlin e目标什么的那你肯定就承受不了这样的因为比如说大气线卡你停一天肯定就是一两百万两三百万的事对那么你怎么去承担这样的一

个损失如果是在一个目标驱动的一个团队可能会觉得

-

没有公司来的压力吗?

没有,没有人来的。

因为你们确实不是一个创业公司,对吧?

不是一个创业团队。

但实际上它就是一个创业团队。

我觉得M IMO和还有包括 Micr o能做成, 其实都是以创业的方式在运作的, 所以它才能做成。

选一个一体的模型对你的管理难度是不是指数性的上升?

How big is the trai ning

team?

很小的, 我只说训练这个事儿本身, 但你做数据还需要那么几个人。

也是几个人。

对,几个人。

还需要什么吗?

可能还需要一个非常好的基建团队, 就是你肯定就会把 ...

...

把卡给集区给搭起来。

这个…… Is it Infr a-2团队吗?

嗯,这不是Inf ra-2 团队, 这个就是基础设施团队。

然后这个团队可能需要有那么一点需要有经验的人, 因为没有经验的人, 他们会出一些低级的问题,对。

吃一些基础的运维设施的经验。

那你们的诀窍是啥呀?

哦。

本身我也没有觉得它是需要一个非常大的团队协作的事情。

我觉得团队协作当然有优势, 就比如说大家在卡资源巨量的情况下可以并行的去探索, 对做研究来说是有优势的。

但是我并不认为它对我刚刚说的那种场景发现一个, 可能是问题的问题 ,然后去深入排查原因去解决它。

我并不认为他对这种模型训练进程中遇到的问题是很大的团队是优势, 反而很大的团队有可能是劣势。

训这个模型过程中你有团队状态是什么样的?

团队状态是原来做数学的那一群人, 就去做后训练的。

做inf er,做训练框架 ,做推力 infer人一块来去解决训练过程当中的问题这是为什么?

这是为什么?

为什么有这个变化?

就是为什么预训练的人要去做后训练?

很多样的原因首先后训练的一大部分的原因是你需要有很好的数据知识这还是蛮重要的其次就是其实它是基于个人爱好兴趣产生的。

对,它不太是基于…… 基于你说 ,我们这里需要人 ,你转一下。

不是,大部分是在自然发生的。

但是我确实能够预料到哪些人会做这样的一种潜移, 因为有很多能力特质上是很共性的, 就比如说对数据的直觉, 比如说会从模型效果去分析,

去倒推一些算法的设计其实做数据好多时候也是在干这个事所以可能我觉得主要原因是我们对人的界定没有那么清晰所以大部分人他会自然随着

训练阶段的变化自由地去选择下一个阶段更有想象空间的事情对你们现在是一百人吗我记得上次聊嗯现在已经到一百人但是这一百人是包含

嗯就是嗯所有链路上的人, 就所有链路,比如说数据采集,数据质量,p rint train, the info,

poster train, 然后包含甚至我们的开发, 我们需要有一些开发, 还有包含我们的产品,包含我们的数据白小生, 还有包含三个方向

上的算法工程师, 大致你可以发算, 就是语言 ,多么态和语音,对。

然后这里边一百个人里边实习生的比例是很高的然后有部分实习生可能是在做一些更...

更...

当下不会立马反映到这一代模型结构上的事情模型能力上的事情所以其实真正投入到一代模型里边去迭代的人我觉得是很少的可能所有联络上加

起来也就二三十个人三四十个人对最多也就这么多人二三十个人二三十个人比较均匀对这里没有组不同的组的划分吗没有没有组没有组的

所以你一对一百差不多,是。

为什么没有组的划分?

比如说为什么不分预训练组 ,不分后训练组?

因为很多人他会对两个方向都感兴趣。

如果你组划分得非常的清晰和固定的话, 那么其实是在扼杀一部分人的创造力, 对。

或说扼杀他未来的成长空间。

第二个就是, 嗯。 I

嗯。 I don't think that post -tra ining peop le...

le...

If post -tra ining is a very impo rtant form of chan ge, it needs to have

a dive rsity of care er.

Many post -tra ining people do it in a spec ific cont ext.

They don't have this dive rsity of care er.

But as a post -tra ining pers on, the first thing you should pay atte ntion to

is dive rsity.

因为他不能往这个模型里边塞一小部分数据他要塞多样性跟好的数据所以其实作业训练的人去做后训练有非常大的优势就是他会天然跟在

乎多样性然后他就是个很好的补充嘛它就是个很好的补充,当然也有人他一直做后训练,比如他只研究小黄蟹 ,所以他一直做后训练,或说叫me

dita tor, anyw ay, 至少我们不要在组织结构上去给某些 ,按场景来把某些人的,我认为是创造力给他扼杀在这

个场景里边, 那就很奇怪,在我来看,对。

没有组也就没有l eader。

本来我们这个团队

的整个的组织结构就是完全结合的。

没有直级你觉得对于做AI 很重要是吗?

做大模型。

没有直级 ,没有组。

对于智能涌现本身的意义是什么?

我觉得平权本身是有价值的。

就是平权本身是有利于所有人去平等地贡献自己的创造力和智慧。

我觉得是有价值的。

任何层级应该一定程度上都是在

Right.

这个很奇怪,这个界定非常奇怪。

我觉得不太会存在有,对。

所以反而更扁平, 然后尤其是对于最重要的那个lea der人, 他不要有特别强的这种掌控感, 然后以及这种觉得没了我就不行, 这种我觉得如果一

旦有这样的一个想法, 反而不是很有利于一个创新团队的发生。

那虽然你说没有管理啊, 那实际上怎么管理呢?

你有什么驱动热情的方法?

让大家认识到一个新的事情让大家去体验其实是驱动他热情非常重要的方式比如说O pen Clou d这是一种体验方式你看起来用了一个

非常极端的方式说你没有一百轮的对话你明天就辞职这是一个非常极端的方式但是你的目的是体验是吗对我也不会追踪去考核我第二天

也不会去考核大家说OK你真的有没有用因为我觉得那不关键我只在乎你有没有真的去用这个动作是不是真的达到一百轮那只是一个量词而已所以你还有什么用

热爱驱动大家的方法体验其实筛选人的时候也很关键就是很多人你可以从他过往的经历看出来他到底是

怎么明显?

我没有办法,就是有很多量化指标, 但是我去跟他聊天 ,我能直接感受到。

就是能s ense到。

对。

你们在这个ET的模型的训练有失败吗,还是一次就成功了?

嗯,就是看怎么定义失败, 就比如说你训到l oss直接飘了这种,那应该中途还是发生过那么几次的。

几次啊。

几次,我现在都不知道几次了,反正两三次总是有的, 对,就落死直接飞了,然后 ,但是他训了,比如说,训了几百步 ,又回来了。

那你说这种情况你是应该停下来解决 ,还是应该继续往前训呢?

解决?

我们认为是应该要解决,就应该停下来解决这个问题,对。

她其实就这样, 呛上去, 几块不维护, 然后又这样下来。

我们认为应该停下来解决, 所以就会停下来去解决她, 让她诺瑟更平稳地度过。

一般会停下来几天?

这就不好说了。

就几天也有可能, 一两周都有可能。

最长的时候有两周。

停两周焦虑吗?

不焦虑, 因为我们又没有什么目标。

当然了, 你那么多卡,你天天做一堆实验, 今天我想这么去排查都, 感觉是这个原因了 ,快改了又跑, 排查第二天看又这样子, 或者晚上

,反正晚上都睡不好, 然后我经常晚上做梦说, 为什么l ost your spike, 我烂几天晚上脑袋。

所以参数量

能决定智力的上限吗?

就是越大的模式越好?

我现在觉得是参数量加上c onte st本身, 对,就这两个是共同决定的, 但至少要达到当代大家觉得最强的a gent 能力水平, 我觉得一定要一体

以上的参数规模才能做到, 才能让大家觉得你已经非常接近于4.6 OPS 这样的事但我不知道它多大我只是觉得我自己认为至少要ET以上才能做到

总参ET以上当然更激活的更关键的还是激活参数对所以但激活参数越大比如说你总参都是ET 你激活参数越大就意味着更高的推理成本对

所以它就是一个t rade off嘛嗯为什么从 5比1提升到了7 比1?

就是混合助力极致。

我觉得我们追求一个更极致的一个系数比, 就是Fu ll跟S plit Wind ow的一个系数比, 最主要一个原因还是, 我们希望在更大的架构里边

去做更高效的no n-co ntest, 对,因为更大的架构, 如果你的 Full Tens ion的层数变多了, 如果你的总餐变多 ,你的负额吞选的乘数也随

时变多, 那么其实在常文的情况下, 它同样会变得非常的崩溃, 因为你的负额吞选的乘数变多了。

但如果你扩大参数量的时候 ,你的负额吞选的乘数没有变,那么有可能...

有可能...

也有可能你的长文 Pro跟 Flas h两代模型是效率是差不多的, 但是它的 Pro的智能水平是提升了的。

所以我们希望在一个长文的效率相当的情况下, 我们希望它模型在 Scan ning 它的水平的上限。

所以我们是比较去控制住这个效率本身的。

但是控制住效率本身, 后面在一件事实在也有一个更有价值的事情就是, Since the upper and lower parts of the

large model are very effi cient, I can put more upper and lower parts in, which

makes it stro nger.

So that's prob ably the back ground of such a deci sion.

For the ET model, your deci sions are first of all, the mixe d-st ruct ure

mech anism we just talked about, and then the upper and lower part of the EM.

Is there a loss when doing this?

- 这个很难找到这样的数据, 或者说这样的数据的构造的成本非常

的高, 构造成本非常高, 所以就是 ,其实你要站到中级的思维来看, 你只要有 ,比如说 ,你如果你有一个 ET, So

this is the key to the prob lem.

我们也所以这个o n-co nvex 的效果是缓慢在提升的慢慢去提升然后你们还有第三个就是MTP 这个是延续的fl ash 这有变化吗对

没有什么太大变化其实就是预训练的时候训 - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - 同期,基本上都是同期。

都是那个时候开始规划的。

对,其实都是三个方向,大概是三个方向同期再往前去推进的。

Flaw 加上Om ni加上 TTS, 它好像整个的VR 家族是在指向多模态的叙事 ,但是它的模态又非常的不一样。

文字是离散的,t oken 图片是像素矩阵, 音频又是波形,你们怎么去做这个融合呢?

嗯其实我们还是想尽量把它统一到la nguage mode l的范式下所以嗯所以至少在音频的建模上我们想要把它离散化

变成跟文本一样的离散的t oken 的ID 嗯然后所以我们在音频上是在这个事情上是投入了比较多的研究的

嗯

嗯让它开始涌现如果你基于连续的特征做

可能很快就涌现了但你基于离散的特征做你会更难去建模它的涌现出现的时间段会更晚然后所以我们知道在音频上是开始了这个尝试然后也会牵引到后

边的其他模态就我们还是就比较想用一套更优雅的架构来去做整个多么太疏乎的一个理解, 但是我们不是为了统一而去做这整套架构, 就很多时

候如果说我们发现确实, 比如说在图像上, 离散确实是不那么可行的时候, 那么我们还是会寻求到一种说目前, 更主流的一种架构里边去

因为我们优先要保证的是这个模型它要具备的是一个整体的一个智能水平而不是追求为了统一优雅

-

能,我们已经尝试了非常长一段时间了。

所以你们能用LM 作为一个统一的方式。

对,但是它其实是一个权衡 ,就是就像我说的 ,你要做到真的无损的一个重建,是需要投入更多的算力,更长的研究成本在的, 它是个权衡。

至少在音频上我们已经卖过去了。

图片呢?

卖过去了没有?

图片正在进行中。

不知道能不能卖过去。

如果卖过去,这会带来什么样?

这会带来更大的想象力吗?

更优雅的结构。

我最开始是认为, 如果我们把它统一都离散化, 那么我们可以用一套基础架构去解决这个问题。

同一套运训的基础架构,同一套做R 的基础架构。

它太简洁了,这是如果真能做到的话。

但是我现在发现一个问题是 ,当我们有Cor elCo de和顶尖的模型过后, 这些架构 ,比如说我们重新去写一套 R-In ferr ed架构,

重新去写一套纯凌 Infe rred 架构, 我们最近就已经完全在从头去写一些新的架构。

我原来以为写这些架构蛮耗费人力, 蛮耗费时间的,但是现在看起来在一金的支持下,写这些架构的时间被大量缩短, 那你其实就没有必要为了架

构的优雅性去做很多为了统一而统一的研究。

这是最近的变化, 一个月内的变化。

但是之前你是希望同意的。

对,执念 ,就之前是来自于这种NO P的执念 ,就所有东西离散 ,优雅, 监督性好 ,更清晰 ,然后你可以做N TP,做 List

of Impe diti ons,然后 You can use all the curr ent infr astr uctu

re.

How cool is that?

But now, if you look back, it's not that comp lica ted to rewr ite infr

astr uctu re.

And then a few people might be rely ing on it for two or three weeks.

You can re-p ick a new R5 fram ework.

Why do you have to sacr ifice the unif icat ion of the infr astr ucture

stru cture that I trai ned later?

Let the prev ious model stru cture sacr ifice so much.

但是Om ni在做的时候, 它是走了一条有别于分别处理哥摩泰在拼接的路线,对吧?

它是构建了一个统一的,试图构建一个统一的。

倒没有, 我们Om ni的整个VIT 的VIT 上只是去做了一个, 它还是一个VIT ,只是我们把它变得更高效了, 它变成了一个Hy brid Sett

ing Wind ow的一个VIT, 对。

但是我们表征本身并没有做太多的变化, 就它还是一个连续的一个表征,并没有做太多变化。

为什么你们叫做全抹态而不是多抹态?

就是因为它确实是支持视频、音频、图片文本所有的模态然后有一些Age ntic 的模型是不支持音视频的联合理解的然后它应

该是第一个第一个支持音视频联合理解并且Ag enti c的能力能够做到跟9G mode l的水平差不多的是不是有迹象能表明这种全模态或者多

模态的理解力能够产生智能啊两个月前我很相信然后最近呢,就是在反正在训OMN I的整个过程当中, 就是稍微有点被, 就是稍微有点质疑这个事情

,对。

但是我们后面还是发现了一些很好的迹象, 就是比如说,Me moVi r,OM NI它其实是比P ro小的, 但是大家实际去用的时候会发现,

这个OM NI的这个, 因为他是远生动物 ,他训练的。

所以我猜测可能是因为我们在这两个方向上s kill 的,就在纯语言上 skil l的算力和纯原生动物态上 skil l的算力还不那么多,可能

导致我们现在并没有看到原生动物态有那么强的一个动物态本身带来的一个智能的很大的一个提升。

你能感受到就比如说很多世界知识他跟他因为他训过视频所以他他知道了更多然后他对很多很细微的东西的感知力你会发现他更强但这些都是很虚

的都是我们自己去实际体感去测感知力对感知力会更强但是你在任何本区码上你是没有任何

-

游戏赛A gen的这样一个可以把多个模型的能力给非常优雅的编排到一起的场景的情况下我觉得我们根本没有必要去非常去强调多么太之中是不

是促进智能这个事情的就是这个它有没有促进智能这件事情本身不关键那多么太带来了什么嗯就我刚刚那两点, 我觉得目

前我只观察到了这两点, 我现在还不知道未来会不会带来, 在一套新的架构上, 会不会有一些新的东西, 我觉得可能做多么太深层, Mayb

e会有一点点不一样, 就是会深层, 它可能会促进更好的感知, 但是你要是纯说把你的感知的维度给它扩大, 可能你是不太会促进智能的。

但是如果你能生成 ,它ma ybe是能促进智能的。

这是我的一个猜测。

但是生成现在还是一个科研问题。

或者说把生成跟理解做到一个统一的架构里边, 目前还没有给你到非常大的算力。

嗯,那你对于Om ni这个模型的目标是什么呀?

就是你设计它的目的是什么?

我觉得截止到目前为止, Agent 他要行动, 他是必须要具备多种模态的, 其实是这样一个目标, 但下一个目标我觉得不是这个, 就下一个目标可能

还是想去探索到, 说当你结合多个空间的感知, 甚至你能去生成更多的多模态的信号的时候, 你会不会促进你对这个世界的理解?

对, 但它就需要有一个, 更直白地说,它可能就需要有一个跟现在的A gen的框架交互的更好的一个视频生成的模型。

对。

为什么你们没有披露Omn i的总参数量和激活参数量?

留个...

你有点想象空间, 给我们留点想象空间,就是我们相信这个参数量可能能做到更接近于pr o的智能水平,虽然大家知道它比p ro小一些,只是

小一些是吗?

对,然后但是我们相信他们俩能够互相迭代, 我们希望他们俩能够互相, 你提升我 ,我提升你,我们希望这么做。

它和pr o谁更重要?

当然Pr o更重要。

但是就是纯语言空间去做通非常多的前置的研究是更重要的。

那关于T TS, 有什么值得花重点?

我觉得T TS就是一个我觉得我们做DT S的东西是我们想用我们自己认为一套优雅的架构去做一个大家都用一个传统的架构做起来很容易的一个事情。

哦,其实你在试这个是。

对对对, 然后,但是我们在这个事做完过后, We found that after we trai ned a disp erse toke

nizer in a data set of tens of thou sands of hours, we found that 这个模型的泛化力

是非常好的, 但是我没有办法去对比说, 我们去训一个很小的模型, 它泛化力是不是真的没有这个好, 至少我们目前得到这个模型, 大家能看到,

你在给它输入很多风格化, 多样的风格化的标签的时候, 就不管是它会更智能, 就是它会看到你的这个字本身, 它会更通过推测你自表面的含义去赋予它的情

感和音律对在这个事情上的泛化性上我们是发现特别明显的因为我们只是简单的做了一些很客定的几个场景的风格的数据

做SFT 和RO, 就是很刻板的几个风格化的场景, 就是比方说它快点慢一点, 高兴悲伤, 这种很刻板的风格化的场景, 去做了这种风格化

的Pos ter Tree, 但是我们发现, 你把那个 styl e的标签, 给它变成一些非常复杂自然语言的描述, 它也能够遵循,这是它纯文

泛滑出去的。

这是我们在做这个的时候发现到这种简洁的架构, 加上超大规模的训练, 带来的一个超强泛滑力的一个外化的表现, 但还很初期。

所以我们这个TT S模型, 我认为效果是非常惊艳的, 也就是说它的上限是非常高的, 然后当它下限,我们现在再慢慢地去,

嗯你之前在一个发布会上画过一个通往 AGI之路的图,

然后你对比了人类的智能, 就是一个生物演化的路径, 它是一个正三角, 然后倒三角是一个现在AI 的发展, 你觉得A I发展是一个空中楼阁,因

为在人的进化中最顶端才是语言,但是AI大元模型极大的放大了最顶层 ,所以它是一个倒三角形, 你觉得怎么能够拼接出这个 AGI之路的图,

你现在做的事情在往这条路上走吗?

但是大模型它好像一开始上来不是为

了生存,对。

她以...

她是为了什么?

我不知道现在大模型有没有自己的价值观, 但是我们要硬给它赋予价值观, 就是让它替代一部分的人, 但它好像不替代它也不会死掉吧, 它没有这

种生存的危机, 所以大模型它可能更...

更...

我觉得它会...

会...

当没有生存的危机的时候, 它反而会进化得更自由, 然后...

然后...

更散漫更有创造力对就更快更不那么受约束以及它现在的基础条件太好了它有那么多算力可以用然后它有人类宝贵的知识的起点

作为一个基础的起点可以用还有那么多人帮它提升所以感觉这两个环境完全不一样所以进化路径就不太一样语言之后模型的进化的下一步会是什么或者哪怕

在语言里细分co ding之后下一步会是什么?

嗯,co ding 它还是会有一个它非常好的一个主旋律, 就是它要做一个很复杂的软件工程, 一步直达的开发, 我觉得持续的时间越久, 能做的开

发的复杂度不一定是代码量, 只要是复杂度越高, 比如说你写一个c url算子, 它可能代码量并不高, 但是你需要写了去, 调试de bug 看它是不是在真的

训练中提效对真的有效果的提升这个验证的环节有可能是长的但是它这个代码量有可能是不长的总之就是你要参与到实际的这种项目

开发里边我觉得会确实是做 code 的一个非常大的主旋律简而言之就是它替代的程序员越多那么这就是它的主旋律嗯,然后再外延到更广泛的生产力的

场景, 其实它确实是需要借助一个更强的一个交互方式的, 就比如说飞树呀, 然后Wh atsA pp, Tele gram, 它都是一

个很好的交互方式, 它是降低你去跟它交互的这个门槛和频率, 然后其实一个更好的交互方式是, 嗯, 那就它就有个它自

己的身体嘛对它可以到处移动所以就是机器人肯定还是一个 for 交互的一个很好的就是 for 智能体交互的一个很好的

必须会涌现出来的一个方式对所以它肯定还是会从屏幕上跃出来到我们真实的空间那么但是机器人它本身的一个演变的平景有大

概率可能是在硬件, 对, 上次我们也聊到, 就是在硬件甚至在电池本身上, 当它进入到我们这种内部的封闭空间, 然后甚至在一些零巧手的灵

活程度上, 所以这些都会比A gen本身的进化, 在语言空间的进化要慢。

你之前说 Flas h是通往 Agen 的第一步, 现在到第几步了?

感觉历程已经到了 20%吧?

20%?

嗯。

今年能走到百分之多少?

百分之, 我觉得至少能到六十,六七十,对。

那AGI 很快了。

对,我感觉两年内应该能实现。

两年内能实现就过后,就是大部分人确实会失去然后生活模式被颠覆是更之后的,因为生活它并不产生生产力价值,然后工作是产生生产力价值的,

所以你先会感受到是你的工作模式被颠覆掉, 其次再是生活。

然后你要真迈入到生活被颠覆掉,可能就是就需要更多机器人。

当然你不喜欢AG I这个词 ,也没有一个明确的定义, 但是我觉得这里面 ,就是它的时间线被提前, 这里面很关键的变量就是能 AI逊A I了,对

不对?

这确实是一个标志节点,因为它可以自体生嘛 ,就是它应该说它可以达到最巅峰的一群人的智能。

因为他可以自己训练自己, 他就能去创造新的研究。

它有做新的研究的能力, 这个确实是它自迭代的一个巅峰, 自学习自迭代的一个巅峰。

这个会是今年的大模型厂商的一个核心竞争点吗?

就是你很难说去4 让AI训练一个大模型, 去设计任务,去针对,去训练, 因为它是一个更高级的目标, 你不会说一下去卖了这个目标, 但大家最终所做的

模型都会通往这个目标。

如果你有最尖端的模型的智能力,最后都会去干这个事儿,但是它不是只能干这个事儿。

在两个月前你认为 AGI还有多远?

我觉得至少两年以上,那会儿我确实这么认为的。

你现在觉得两年以内了。

你觉得你们新一代的这个模型,尤其是Pro 和中国的这一代模型,你觉得和美国代差还有多久?

I think in China, there are seve ral comp anies that alre ady have ETH on

their mach ines.

Kimmy, and Mimo, and some othe rs.

And these model manu fact urers, I think basi cally, at the mome nt, are at

the top of the world, just like Cloud, Ops 4.6.

I think if the resp onse speed is fast enou gh, it should only be two

or three mont hs.

就不是说两三个月过后能追上两三个月过后的 cloud, 而是说能追上当代的clo ud, 我认为这个概率是蛮高的。

um

um So

the Agile fram ework will also impr ove very quic kly in the next two mont

hs.

And then the second is that as the first two outb reaks, the stro nger the

Agile fram ework, the more the abil ity of the model to impr ove, and our

cost is extr emely adva ntag eous, then the demand for推理 will defi nitely expl ode.

I think the space of a few to ten times is very likely to be reac hed

when it happ ens.

那么对于推理芯片就会达到一个空前高涨的情况。

这样一个需求所以那么怎么去在现有的产能尤其是可能大部分卡点在于存储上对然后产能的基础上然后你去拿不管是自己制造

还是用到最先进的芯片来去做更好的推理对那么就是一个非常非常更好更低成本的推理就是一个非常关键的一个命题然后最后就是另外

一个事情就是更长期的事情是, 我们肯定不会在E T的这个水平上走太久。

如果要拿到下一个阶段的领先,那么你就要寻求更大规模的一个 scan ning。

那么到底是去sc anni ng农学参数量, 还是去s cann ing什么东西。

然后以及你要在什么样的芯片上去s cann ing。

对,那么就是当下立即需要去决策和判断的事情。

那么这个事情才是决定可能半年。

或者是大半年过后的谁是更领先的你现在做的决定是什么这个决定就要防密了所以我们现在看到的所有M IMO相关都是半年前的决定差不多

我看到你发文发推说好几个人都问过你说为什么 MIMO 团队非常的迅速然后你给了几个关键的结论一个是核心架构与基础设施

的研究周期漫长所以需要看到回报的一年前就具备战略信念第二个是训练后的敏捷性是另外一种能力然后第三个是好奇心就是热爱

是你一以观之都在说的你能不能解释一下这三点为什么能带来一个超级大规模的模型的训练的迅速预训练因为它太简致了,所以更关键的事情是你需要有

一种预测能力,或说有一种战略定性 ,就是你训练这一代模型到底是fo r什么准备的,这个事一定是要提前一年就要去想清楚 ,或说半年。

为什么我说半年或一年,就是因为以前我认为是一年, 现在我认为是半年 ,因为A -Gen erat e实在会加速这个事情。

总之就是你要提前很长一段时间就要去想清楚你这一代模型结构在后面这么长一段时间里边它要干什么我觉得这个事得想清楚

否则的话它就不具备一个优势它可能就是一个很平庸的模型结构一个很平庸的模型结构并不会说带来一个非常平庸的模型效果但是它一定会带来一个

非常平庸的成本和效率的劣势对然后所以这是我认为就是预训练或者是 Infer should be the first to do a

lot of thin gs.

And post -tra ining, beca use it is now in the proc ess of being inte

rloc ked with engi neer ing, so a lot of things you can't go ahead and plan

very clea rly.

So this time it's more chal leng ing how we can use this model abil ity

and this set of engi neer ing meth ods to prod uce that kind of chem

ical reac tion.

And then how do you quic kly design a new infra arch itec ture.

Right, here we need to design a new RL infr astr uctu re.

Beca use for Code Math's reas oning, this kind of char t-like reas oning infr astr

uctu re, the core is the engine itse lf, the model engine itse lf.

Beca use the model has to push for a long time, think for a long time,

and then give an answ er.

Right.

This is the prob lem with this RF infr astr uctu re.

As for the infr astr ucture of Agen da, it not only focu ses on the

mode l推力 itse lf, but also the model and Agen da's over lap.

So it is from the RU-A uto推力 engine to the Agenda core, a more comp lex

black box, or maybe a white box syst em.

对,所以那么这里边要解决的INF A上的很多问题跟上一个C HART 的时代做 RE这种 CHART reas onin g的时代要解决的 INFA

问题是完全不一样的,所以需要这个团队更具备敏捷性去快速的去开发针对当前这个时代的 REIN FA的系统。

Right.

嗯。

然后再其次最后的一个事情就是我觉得确实关于好奇心或热爱或者是技术的一个坚持, 我觉得是很多很优秀的re sear cher 身上的很多特点,

但你说要怎么去...

怎么去...

从一开始源头上去筛选,然后管理激发,然后最后让大家去统一为而着大部分人所信仰的事情去往前去运作, 它确实是一个非常复杂的一个事情,

然后这个事情的难度我觉得不亚于去设计一个非常复杂的一个a gent 的系统, 所以在这个事情上我觉得我也是在摸索,然后我觉得我更多的是

也是在这个环境中去学习, 对,就是学习其他人怎么去在他自己擅长的领域然后做得更好。

所以这可能是为什么我最近对所谓群体智慧这种会产生这种AG I的一些思考的原因,对。

你说的群体智慧是不是还不只是一个公司,一个团队?

对,我觉得是全人类的群体智慧。

这是Op enCl oud在做的事情 ,它可能是引发了这个事情。

Open Clou d到可能 ,我不知道它的动机是不是, 但是至少它现在让大家共同去改进一套框架这个事上, 以及在如此短的时间内让大家去做这

个事情上, 我觉得是有这样的一个苗头了。

刚才提到中国美国的差距, 你觉得中美实现A GI的过程会不一样吗?

坦白讲, 我不是很了解美国 ,所以我至少觉得按照我们目前的这一套,在模型,在 ,应该首先是前沿的研究, 其次是模型的水平 ,然后再其次是A

Z的框架 ,再其次是芯片能源, 这些多方面的角度上,我认为是非常可能领先的,合起来非常可能领先的。

嗯。

但是有了这套一些框架过后, 它以一种非常容易的交互的方式, 就自然远远沟通的方式, 它就能把你所有的, 你再去做这个复杂任务的时候的,

cont ext全部给具备, 并且它还是所谓越用越聪明, 就是你越用你的所有的智慧, 全部被它吸纳进去了, 被这个框架本身给吸纳进去了, 这还不是被模型吸

纳进去, 当然它最终肯定是变成了, 变成类似于模型的参数被洗来进去了。

对。

我有一个感觉不知道对不对啊, 像不像一个补丁。

我觉得对于顶尖模型来说, 它也不算补丁,对。

嗯,对顶尖模型来说它好像是加油器 ,但对于中段的模型来说, 它就是一个非常好的放大器。

嗯,嗯, 嗯,就是觉得,应该说不是放大器, 应该说让它变得很稳定,变得在各种场景里边都输出非常好的效果。

但对于顶尖模型来说,好像它是成倍的放大它的上限。

嗯,因为你加入小米也一段时间了嘛 ,然后过去半年发了好几个模型,你觉得过去半年对你来说意味着什么呀?

比如说我得到了进步的地方, 比如说我觉得不足的地方。

这个问题真的是。

我觉得这个时代可能就是, 我感觉每天可能都在否定昨天的自己。

就不管是很多做事的方式上, 还是你对事情未来的一些判断上, 我基本上都在一直去否定,对。

我觉得是在这种否定当中, 自我类型和反省当中成长的。

比如说有一个什么地方得到特别大的进步,你觉得?

I think my jour ney is not very clear.

I set some shor tcuts for myse lf.

When I reac hed this shor tcut, I felt like I was impr oving.

But it's just that he's always impr oving.

And then he might be very slow some times.

Some times he speeds up, some times he's slow.

But in any case, he's always impr oving.

So you have to let me find a...

a...

标志性的事件我自己觉得我真找不出来。

但是我感觉我就一直悄悄地在进化。

然后我老自己这套系统就悄悄地在进化。

有什么心法吗?

心法?

心法就是以前我在做电话的时候, 我觉得学到一个非常有让我能够去克服挑战的很重要的一个一句话是, 嗯。

总有方式去建模价格。

这是当时我自己觉得给我一个力量的支撑的一句话。

然后当我后面,当做量化的时候,你感觉价格就是你的 rewa rd,对 ,你要去预测准价格,你才能做好量化投资, 然后到回到做大模型赛道的

时候,你会发现那个rew ard是不那么清晰的,然后是变化的,然后这个时候你应该, 更就对我来说我的心法就是说我应该做当下符合我价值

观的事情然后这个事情我觉得他一定是要

嗯

这个很不容易的事情得到被替代,然后他有更多时间去做更有价值的事情。

所以我们老在幻想 ,如果我们的工作 90%被替代过后 ,我们应该干点什么有意思的事情。

每个都能想到非常多有意思的事情。

哦,真的吗?

对,真的。

你想干嘛?

好,我觉得我想的事情在变化,但是我觉得我此刻,我有想过…… 此刻我还没想这个事情,我大概一个月前有想过,就是我觉得一个非常有价值的事

情是现在中国的很多基础的研究,它其实是太 ...

...

太去要求有一个很完整的产品, 那些八道的证明呢, 就并没有一个很好的资金, 或者说有一个慈善的机构, 或者说OK, 什么样的东西来去

支撑, 这种做基础研究的人, 去往这种更突破的方向去迈进一步, 然后也没有很好的资金, 这种体系包括如果有很好的这种算力资源它需要很

好的基础设施的体系来去支撑他们去做这样的事情那么我们可不可以搞一个这种公益型的啊呃 AI

is doing it.

我始终觉得应该加速做科学研究这个事儿, 是哪怕最终实现一阶段, 也有很多要做的事情。

为什么一定要去跟他竞争?

就让他做好了。

那不一天到晚躺着没事干吗?

总要做点新的事情吧。

如果纯享受生活应该也挺无聊的。

或者说你总要去做点帮助他的事情吧, 我觉得。

这个事情可能是当前的模型, 可能是当前的模型, 比如说提供情绪价值,对吧?

给模型提供情绪价值。

给模型提供情绪价值。

还需要吗?

你现在之前还在想怎么让模型给我们提供情绪价值。

嗯,对对对,总之就是要做点有益的事情。

嗯,但这个有益我觉得是按照个人的价值观来进行评判的。

然后,嗯 ,无聊是不是一种意义我也不知道, 但是好像无聊对我来说不是一种意义吧。

过去半年你遇到压力怎么缓解?

压力,有压力的时候大吗?

我,我的脑子就是一个sa dly wind ow的情形, 就我,我 ,我忘得非常快。

我哪怕有压力,我当下立马就是,嗯 ,嗯,嗯, 可能快的话一两个小时就过了慢的话一天就过了我睡觉第二天一定就过了对所以我缓

解压力的方式非常快但是这也基于一个前提是你第二天会有一些新的有想象力有上线的事情给它冲掉你立马就忘掉如果它还是在那个 cont ext里

应该就忘不了这次模型发出去之后跟你有什么想象不一样的吗有什么得到什么新的反馈啊我觉得这一次,就是我觉得所有的事情都在我意料之内

,我也不是说这一次,我觉得每一次都在我的意料之内 ,是因为我先看到这个模型的能力, 所以我能预料到这个模型发布出去过后别人会是什么样

的一个感知的状态 ,所以反而我是对任何发布是有点脱明的。

我也能预想到它最火的一种状态是什么,或者说最炸的一种状态是什么, 这些我都能预想到 ,所以它完全在我预料之内 ,我也没有有多兴奋或多怎

么样,我只是觉得 ,OK, 我们认为这个模型达到了水平和能力 ,被大家感知到了。

So 外部对这个模型的评价

包括它在什么框架里好用它目前达到什么模型一个对标的水平基本上都跟我们内部的评估是一样的所以大家是正确的评估了它的我反而是在发布的

前几天就在开想 OK我们下部要干什么我早已经进入下一阶段所以这一阶段状态我就没太 care了你们为什么3月1 1号的时候是先上线了两个神秘模型

出于就是因为Po st-T rend 在训练过程当中, 我们拉了中间的几个协和方式出来看了一下, 然后发现到某一个阶段发现它就非常好用了,

然后我们就觉得应该让大家去体验一下它。

然后以及匿名的阶段大家的这个评价会更公正这确实是一个很好的方式所以就直接上了O penR oute r匿名上看大家对他的评价跟我们是

不一样然后当然也有一些比如说我们当时没有意识到的问题就是这个是我们从匿名期间接受

到外部评价。

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -

- - - - - - - - - - - - - - - - - - - - - - - - - - - - 嗯,我觉得他是一

个非常好 ,非常有战略眼光的老板, 天使投资人。

Anyw ay, 后边还有很多标签 ,对。

就没有要求。

就在这个事情上, 如果一开始,我加入小米之前,就在这个事情上是高度统一的, 所以后边你不需要有过多解释和说明。

对,就做就行了,对。

按照我们的判断和直觉做就好了。

然后做了 ,拿完的时候,嗯 ,做得好。

We talked a lot about your VR fami ly's model.

I want to think about the prog ress of the model in the past three years.

You divi ded it into seve ral stag es.

From the end of 2022, the big model war that Chat terBee was thin king about.

What are the key chan ges every year?

How did we get to where we are today?

I think Chat terBee is the first to play a model in a...

a...

I guess it's a 4K prev iew trai ning scene model.

The length of the prev iew trai ning or the length of the cont ext is

really impo rtant.

So the next CP just lets ever yone feel that OK, I prev iewed a 4K cont

ext.

After the trai ning is over, I talked to him brie fly.

The number of conv ersa tions is one or two roun ds, or even more roun

ds.

In fact, the cont ext at that time is highly rela ted to your conv ersa

tion order.

对,一轮两轮,一轮两轮两轮。

然后你可以在后续去纠正前续轮的很多问题, 模型也可以在后续去澄清自己前面犯的很多错误。

这其实是恰好GP 当时给人的冲击, 就是你感觉他在对话上达到一个内人的智能水平。

然后,但这些所有东西发生可能就是在一个很短的上下文发生的。

然后他只是在这个横档上下文去把模型在超大规模预训练上训的那种NO S相当最低的那个智能水平给激发出来了当然所有激发的一个前提都是要靠有

一个很能让人感知到智能水平的这样一套交互恰当就是一个很好的交互对否则你不知道这个模型已经这么强了对所以恰当

是一个很好的交互这是二年恰当GP 发生的事情年底对然后二三年的话其实当有一个顶尖的B1模型做到的时候它的下一年就是

OK 开源且怎么去追上这个顶尖 B1模型所以二三年你看就是NAMA Q1

Right.

然后你哪怕训一个 7B的结构, 那么这个 tran sfor mer结构是怎么样的?

是pre -neu romo de, post -neu romo de, 然后这个细节是怎么样的?

然后你的 head and size 多大?

这些操餐那会儿完全是不透明的, 但是NA MA告诉你, OK,你这么训, 能训成功, 它给你开了个头, 那么记住这个头, 所以Q1, OK,

借助NA MA的一个架构, 然后做更好的预训练数据, 做更大规模的预训练的co mput ers给你, OK, 就是科文系列就起来了。

嗯,然后 ,但是Q 1做得很好是它为开发者生态做了全尺寸的模型的训练 ,然后也训练一些多模型也做得非常的顶尖, 然后这是对社区非常有利于

激发,后面社区做一些微调啊,还有像有一些微调的框架啊,诞生一些必要的先决条件,对。

然后De epSe q在同期了,虽然也是尝试在去复刻 Lama, 但是可能更在乎的是去看到 Lama 这一代架构有什么问题, 而不是去着急去s

cann ing, 对,他更在乎说OK, Lama 这一代架构, 比如说当下Lam a还是用 GQA, 那么GQ A在更大的模型里边, 尤其是在,

OK, I think it might invo lve some new stru ctures to solve this prob lem.

So this is the phase of Deep Seq v2 and v3 seri es, which is to

intr oduce some new price, whet her it's MOE for high -eff icie ncy trai ning,

or MAG for lower return cost.

And then this is what happ ened.

So Deep Seq will prob ably pay more atte ntion to sayi ng, OK, I'm going

to do better rese arch to do scan ning on worse chips.

拉玛的缺陷是什么呀?

它就是个 dens e嘛,然后你要真要去给它 scan ning 的话, 你会,比如说,比如说现在没有人去运营一个几百币的 dense, 开远见好

,我说开远见,因为运营几百币的d ense, 虽然拉玛搞过,你也能看到结论, 但那个结论不一定是说这个结构的问题, 就是它太贵了。

它太贵了 ,你去训它也很贵 ,然后你去推它也很贵,没有人会去扮演一个又笨又贵的模型。

那所以你 MOE for更高效的训练,然后更高效的推理,然后像MOE for更低的推理成本的这些模型的架构就会诞生。

所以这是同阶段可能QNN 跟Dee pSyn c在走两个路径, QNN是在纯sc anni ng。

And Deep Seq is cons ider ing a new tech nology for scan ning.

Which one is corr ect?

I don't think ther e's anyt hing right or wrong.

Beca use one of them is trying to get the stro ngest model.

They want to get the stro ngest model in limi ted comp uting power.

Beca use Deep Seq's comp uting power is only a few perc ent less than Q1.

But Q1 is thin king about how to prom ote better ecol ogical deve lopm ent.

所以两个都是对的 ,没有说谁是对的或错的。

这样就形成中国的两个开源势力。

对的,一个开源势力是在做研究上做到绝对的高度, 然后一个开源势力是在真的生态和生态价值上, 我觉得做到一个高度。

生态价值本身也是个价值,对。

如果没有这么多的好的开源模型, 那么非常多好的研究工作, 就像De epSick R1, 前序的很多研究其实都是在 Q1的模型上去做的。

So they are each othe r's source of insp irat ion, and they are all valu

able to the comm unity.

And then, of cour se, Deep Seq has more other valu es.

It has a new stru cture that brings an impact on trai ning costs, or an

impact on subs equent reas oning costs, which leads to a lot of reas oning chips.

I think it's a reas oning chip.

It has more ...

...

更准确的判断,O K,下一代芯片我应该怎么去构造, 怎么去设计,对。

我觉得这是一个对这个整个 AGNT 层来说是一个非常好的一个事情,对。

然后这是可能23 年,24 年发生的事情。

然后24 年可能唯一发生的一个事情在所有医疗之外是 OE跟RE。

其实OE 跟RE其实在...

实在...

I think it's a surp rise inside Deep Seek er.

You can say that.

Surp rise.

You can say that, too.

It's just that it was born by chan ce.

It was born by chan ce.

I think it's actu ally ...

...

说当预训练范式变到后训练的时候, 然后对于组织和团队以及创新的要求是不一样的时候, 那么整个团队应该怎么再去重组织的一个问题。

我是在这个事情上得到的最大的感知是这个。

是团队。

我觉得团队是其首要要素。

按照传统的观点方式说,我现在要对后训练加大投入, 好,算力我投了, 那投人, 那我从外面挖一个人来,或者是我, 我从,就是我新组建一个团

队,这个是错误的方式吗?

就得看这个团队本身,他可能会觉得后训练的人就做后训练。

我是觉得这样不是很有理由创新吧, 就是,最主要就是 ,就是你能想到很多点上他会做得不好。

嗯就比如说我刚刚说的后续练的数据的多样性上嗯如果只是做后续练的人天然就缺乏这个事业嗯然后还有就是嗯很多嗯

- So what we see

outs ide is prob ably R1, but what you feel inside is the adju stment to

the team before the model is star ted.

嗯,和组织。

其实就是大家认不认可这个事儿,然后以及我们要以什么样的方式来做这个事儿。

我觉得我是在RE 的过程中是有非常大的体验的。

但最终的那个结果 ,就我能预知到的是,就我走的时候 RE还已经做到一个Lit e的水平, 然后Co lour -Gre nMat h已经做到了非常

接近于那个OE小的那一版。

Right.

但我没有预设到的事情是, 它其实是一个范式的转变, 就Rec entl y它其实是可以通过Col orMa sk这个高泛化的场景能放到同样以

外,这个其实OE 也没有走通,这个是我没有预料到的事情,所以也是因为这样的一个背景的因素在导致我后面在看一些新的东西的时候 ,哪怕它是

for 一个很垂的场景去做,像C olor ,尤其是 Colo r这种场景去做, 我会先思考它是不

是真的能泛化。

是不是我把他想小了?

对,然后 ,嗯,这只是一个可能,我自己沉淀下来的一套ski ll,然后,嗯, 然后这是 24年25年对可能25 年我觉得很薄弱的

一个事情是它处在一个很交错的一年这个交错的一年就是你可以选择在Ch ad的这套方式下把Ori gina lly给做到极致继续去把 Sway

Bench 把Nav code Bench 这些偏C ode的 Benc hmark 就是思考很久给出一个答案然后把这种Bunch 嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯

嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯美麗麗麗麗麗麗麗麗麗麗麗麗

美麗麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗麗

美麗麗麗麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗美麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗

麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗麗

麗麗麗麗麗麗应该是, 我觉得比 Kimi 还早。

但这样一种新的方式下, 它其实对整个团队的这个敏捷性要求又很高。

你要快速去迭代, 基于一个技术快速迭代。

所以你看从模型的发版速度上, 你也能看出来哪些公司它拥抱的速度够快。

可能有些公司就没有跟上还是在原来Cha d的方式下去继续升更没有跟上哪怕你去做了一些 Bros kamp 思维be nch这些

还有Te rminal Bench 这种所谓的age nt的b ench marker 这些be nchm arke r提升得很深但它并不代表这个模型它真的能

实际可用比如说它就是一个非常离谱的评价指标就在这上面训的模型我感觉只能在这种数据上测你换种方式哪怕也是做信息检索的方式你最终它

能力还是发放不出去就很奇怪嗯就是这套整个税级它举向整个框架也非常的s peci fic 对所以就是

就这半年如果说在所意见的人大部分是在走到这个歧途上我觉得它算是歧途 We also went thro ugh a small step.

Flash didn't want to be an agent in the first gene rati on.

They just wanted to be a good chat.

But I think one reason is beca use we really need to get the chat tech

nology done first.

Just like I said, your chat should be at least 70-80 poin ts.

Then finish the whole proc ess.

You can say that your post -train data infr astr uctu re, your infr astr uctu

re, your exis ting peop le, espe cially those we recr uited, have never been as

big as some peop le.

他有个历练他必须要有个成长的经历否则他一上来就做新的东西怎么好做呢对就是我那会儿做F lyHa sh的时候我纯粹是一种 OK我们

做过的事情这样一群没有经验的人再做一遍但我更在乎是这群人在做这样一群新的事情的时候他们自身然后他们这个进化就对我们后边去做新的事情

非常有价值因为我极少在中间给非常强的sup ervi sing 除非我发现你要掉头了对否则你给太细节的这种监督信号就告诉他

这个事应该怎么做的一个缺陷就是嗯,他们

刚毕业?

比如说在学校做了一些基础的研究, 然后比如说之前甚至不是做大模型的。

那是做什么的?

做工程的呀,然后做开发的呀, 这些都有。

一点训练背景都不需要?

有大概...

三分之一到四分之一人稍微有一点点训练经验 ,但是可能都只是训过比如说7B, 14B, 类似于这样的规模模型,我觉得他跟训练大模型的那些

经验也不太能复用。

那需要你有很强的训练的实践的经验吗?他对

吗?他对你的经验要求高吗?

他对...

但是我后面发现你不要告诉大家一二三四四什么,然后就推大家一起, 我们一起来重新做一半这个事儿,然后大家就

会往前走。

然后这个组织等会儿聊,我们先把这个聊完。

你刚才回顾了从2 0年底到现在的整个就是技术发展历程,以及各个公司做了什么关键的事情。

所以现在大模型的竞争从之前的Ch at过渡到了Ag ent, 对吗?

这算是这个模型竞争的第二幕。

第二场战役,就是所有人都开始在同一个起跑线上。

太原模型应该是, 可能冰原模型我觉得早,早, 比如说, 比如说, 可奥德应该是两年前就在这个路径上了,只是我们没有意识到他是最正确的路径而

已,对, 或说大部分没有意识到。

很多人我觉得是在去年意识到了。

对,去年意识到, 但是都没有在做正确的事情 ,在我来看。

什么是正确的事情?

正确的事情就是你要在一套非常复杂的age nt的框架,或多样的ag ent的框架上, 然后去端到端的完成更高复杂度的任务,并且以此为目

标作为你的后续练的范式。

而不是在一个很局限的场景里边,针对一个这个场景定制的这个这套很简洁的架构里边去做另外一个比恰得更复杂度高一点点的, You

think Mini max is chan ging fast er?

我感知到我觉得它是比较快的,因为他们用一个识别模型做到目前的这样的一个a gent 能力,我觉得是蛮惊艳的, 就是他们的后训练的敏捷程

度是非常惊艳的。

但是你说 agen t的这个第二幕所谓的入场圈是一体的基础模型,那m inim ax没有这么大的模型啊。

对,所以我觉得它并没有说真正意义上已经对标靠的OPS 4.6了嘛。

你觉得今天

嗯你能不能评价一下中美两边这些厂商你们各自到了一个什么样的位置啊现在大家 batc h有什么不一样吗嗯

大家可能一个共识都是认为欧洲品的路径是正确的我觉得这算是当下的一个共识就是A- Gene 的这条路的路径也会更清晰至少在过去的三个月以内

我觉得A -Gen e的路是变得更清晰了所以在路径更清晰的情况下嗯 I think the dome stic larg e-sc

ale teams will expe rience a state of acce lera tion.

Beca use now the gap betw een people on the print chain is basi cally non-

exis tent, or very close.

Or the dome stic larg e-sc ale teams have adva ntages in the print chain stru

cture.

I even think that Cloud may have been in the past, 很多co ntext engi neer

ing, 我们都误以为它是因为模型结构不是很先进, 然后为了成本而做了一些妥协的设计。

但现在回过头来看可能是有点想得太局限了。

然后现在可能你能看到所有的这些c onte xt, 不管它最开始的东西是什么, 但最终目前的这样的一个状态是它所谓的co ntext的

- 其实是为了配合模型发挥更强大的整体的任务的完成度而设计的所以我觉得当大家看到这样一个方式一个转变了过后

所以又有一个机座并没有发生代差的这样一个情况下那么大家其实就很 all in的要去做好 Agen a的po ster

tree 或者说更具体的说其实就在 Agen a上怎么去做好 Out of the Scre

ening I think it's very clear that we have to go after the gap betw

een print and train for three years.

When did you real ize that coding can be so powe rful?

I think it will be at the begi nning.

Whet her it's in the print or post -print mode, even if I start from the begi

nning of the second or third year, I will have a very high expe ctat ion

of the coding flex ibil ity when I return from the mass prod uction to the

main line.

但是这种期待它是转变成说 OK 我先要好好的去做好cod e的预训练数据然后再去 scan ning 算力看一下它到底在 code

benc hmar k上会不会很好再看看c ode benc hmar k提升了以后其他的犯推理类的像BPH Joff 这种be nchm

ark会变得更好其实它是一步步去实验验证的这样一个探索的路径然后到R EDAR 块又一次验证了因为co de和m ass都有非常好的ver

ifie d的指标所以又一次验证然后到a gent 这个范式 code 又因为它有很好的 envi

ronm ent.

嗯 RL scal ing, have

you found any prel imin ary resu lts?

暂时还不是很方便分享。

我觉得等我们有一个至少我觉得在RL skat ing上的算力跟运训练的算力达到一个同一个水位的时候, 我觉得我们会给大家分享。

你觉得今天的竞争变得更激烈了还是变得更平缓了?

相对于2 3年。

競争的维度变多了吗?

竞争的维度变多了。

但是其实应该说竞争的维度和速度都变多了。

速度变得非常快。

可能你做预训练你不可能一个月出一个模型, 但你做后训练你确实可以一个月出一个模型。

然后还有就是,

嗯

How do you do a scan ning of the cont ents of the post?

It also invo lves, for exam ple, if you do a scan ning at the begi nning

of trai ning, then the post -train corr espo nding to you, doing post -train on

the post -train on the 1K, and doing post -train on the 256K, its comp uting

diff erence is seve ral times the diff eren ce.

其实是有一个更长的决策链路, 它从原来 Print Trai n出的, 只需要对 print

train 本身的架构做决策到需要对你对快速的接下来一段时间 Agil e框架演变推理芯片的整个市场我觉得算是供需的一个预估

因为芯片它受制于制造的工艺制造的储备它瓶颈就在那儿然后以及你要不要尽早去规划去做更广的

嗯

至少他对创业公司的团队的规模要求会越来越小, 就是可能不需要有一个非常大的公司, 就几个人 ,甚至一个人都可以成为一个公司, 他大概就只要你学

会充分借助age nt来去让他变成你的, 就我之前老看到有人说Op enCl over 上我一个人养很多个员工, 就

嗯我自己也去做过这种mul ti-a gent 的尝试虽然当下目前来看是不那么现实的或者说我觉得有点噱头但是我觉得它很快

会变成一个现实在今年内嗯会对 Mult i-ag ent 对对现在没有突破的地方是什么呀现在差哪里了嗯

每个环节都差点就比如说你需要有个足够便宜的模型因为你最终算的是它是不是比我招一个真正的员工更便宜如果不是那么便宜 ,为什么

要用你呢?

所以你还是要有一个更低价的模型不可能说你烧个C loud Ops一天花一千多token 结果那个员工创造的价值可能一千对,就这

个意思嘛然后第二个就是我觉得现在的mu lti- agen t的架构并没有那么我觉得还有空间, 反正对, 还有空间 ,以及他们各自怎

么去自信化自解的 ,以及互相去沟通 ,这都还有空间, 就都还, 虽然有, 你感觉现在已经有这个雏形了,而且我自己也 ,Mar tin也用得挺顺

的,但是我始终觉得他还是在去节省成本,节省时间, 并没有去放大最终的上限。

Right.

然后其他所有的东西都很简单,然后就反而模型借助这个一件的架构本身就变成一套新的产品了。

现在你看看一个公司为什么要选择开源,为什么要选择闭源?

因为国内大部分公司都开源了,除了自己,现在选开源的目的会是什么呢?

这是一个技术选择还是一个市场选择?

还是一个去加速一件的事情 ,我还是认为是这个目的。

开源是加速一件的。

开源一定是加速一件的事情。

就你如果没有开源 ,我们假设一件会爆发,假设它会替代绝大部分的生产力, 那么我们可以从这个事儿去倒推,你需要多少的芯片?

你需要, 那么这些芯片难道会被一家公司, 生产吗?

难道会被一家公司购买吗?

好像不是 ,它会分散。

然后,那么如果它是分散的情况下, 那么假设芯片是分散, 那这些芯片的推理, 有可能是芯片的厂商, 有可能是大模型的厂商。

那么它用的模型难道是同一个吗?

还是用的不一样的模型?

我认为一定是不一样的。

对,所以你从中举来倒推的话,开源这个事一定是至少有利于推进这个事情的。

因为它最终要大规模产生经济价值, 它必须要依赖于算力才能产生经济价值的。

对,所以我认为开源是至少对于很多环节,也就是框架 ,芯片, 能源。

这些环境上其实都是有促进作用, 所以我认为它是加速外界的进程的。

那你说它最后是一种公益, 还是一种市场?

我觉得是取决于每个公司在开源, 结合自己的生态位就是你有没有一个别人不可以短期内拿下的一个战略的生态位如果有的话那么你

就敢开源如果没有的话你就认为模型就是你的生态位那你就不开源就是这样的一个行为你在一个大公司做开源的事情会有压力吗我现在不

觉得我在大公司做事情其实小米整体我觉得非常的创业导向 I think it's stra nge that it looks like a

big comp any, but it's actu ally a comp any with a very flex ible way

of doing thin gs.

So what do you think will become the winn ing hand in the comp etit ion

of the model comp any in 2026?

What can be left on the table?

First of all, you can't do anyt hing wrong.

First of all, your trai ning, your sitt ing, 嗯不能错就如果这个事儿都没有上那就基本

上就完全没有机会了对所以假设我们都有一个大于一体的模型然后机座的潜能都尤其在扣的上潜能都是相当的这样的一个base上那么大家

比拼的就是怎么去快速的去第一个怎么让A gent 的框架跟模型互相自迭代提升第二个怎么让这个Age nt的架构去更多的去偶合你现

在所具备的资源对或者说生态位怎么让A 型的架构去理解和调度你现在所备的资源和生态位比如操作系统是比如说硬件是比如说流量也算是

对然后流量社交这些都算是对怎么让A 型架构去适配你现在的所具备的战略资源然后最后合力起来怎么把它给整合好其实它很

考验的是我自己觉得它非常考验的是一个公司愿不愿意用一套新的方式来做这个事情什么叫新的方式呢?

得思考原来所有做的东西都是错的对原来是不是需要这么多人来做这个事情首先要思考你需不需要这么多人来做这个事情就是你现

在所有做的事情这些人是不是都需要 Fron tier Lab's fron tier should

be where?

最基本的我觉得做研究应该放铁。

对。

就是还是要有那种自己想要原创做很多东西, 而且这些东西, 可能短期的也不会那么主流 ,但是你要说完全不会主流认可,那也很奇怪。

我自己觉得有点蛮反主流, 我觉得不是很适合的一件事情是, 你很难s cann ing, 我还是很相信sc anni ng这个事儿。

你只要顺应主流的话,那你就很容易去sca nning。

为什么呀?

你的所有的音法。

所有的硬件芯片这些, 它都是我要的这个目标来一起往前推动的, 那么你这个研究又会获得非常大的加速度, 对,主要是这个原因。

所以我觉得会顺这个主流, 然后去做一点,我们超前来认为, 比如说N HK's Infe ctio n的架构, 它其实就是在这样一个背景下去做的,

但它也没有说开天辟地的研究, 但我们认为这些小点研究, What are you most sati sfied with in your rese

arch in the past few years?

嗯

它是稍微在一个有时候可能更多是在一个资源受限的场景里面做了研究但它本质上是可以 scan ning 的研究对所以我觉

得这个算是一个不错的作品然后Mi rror ware系列我觉得也算是一个是是因为我们确实在A gent 的这个范式还没有非常明朗的时候,

就去做了很多前置的这个决策和判断 ,然后导致我们很高效快速地去基于一个优雅简洁的结构给迅起来,然后这个结构并且最终我们发现它非常的

适配Ag ent的这套范式 ,然后我们又快速地去转移到Age nt的这套范式上 ,做了很多后续练的,

Right.

嗯,就核心原因是我现在也不看学术会议的p aper。

主要的原因之一是 ,我觉得大部分的实验确实应该自己做,然后你相信自己的实验结果比相信诺文的实验结果会更好。

但是我会看一下它的原始关注的问题和动机是什么,这个我会偶尔会看一下。

But in any case, I think that whet her there are people who have done rese

arch in this kind of larg e-sc ale algo rithm team or not, I found that

the charge is also quite diff erent.

So I'm now less and less look ing at these thin gs.

那你现在信息来源包括哪些啊?

来源自理来,真来源自理来。

我最近连跟人沟通都很少。

对,所以我都不知道我今天讲的这么多个小时的这些东西, 它会不会过一段时间发现, 我应该会过一段时间会发现它是错的, 但是我不知道当下会有多少

人会觉得它是错的, 或者说是不是有帮助或价值的。

你还没交流过?

没有交流过。

要说有交流就是自己跟自己交流,然后自己看看跟团队里边的其他人在做同样实验人交流,对。

你刚才其实多多少少都提到了一些组织话题, 包括我们上次也聊了很多组织话题, 你在最近的两个月有没有一些迭代啊?

就100 个人可能有20个人以前训过,接触过,小一点的模型。

对,就主要是我觉得这些事情它都可以被, 被快速习得,这些能力真的都可以被快速习得。

只要你被放在了环境里边, 围绕着一个更高标准的目标来驱动的时候, 这些能力都是可以被,我觉得最多一两个月, 慢的话三四个月, 确实都可

以被快速习得。

所以环境反而比经验更重要 ,我自己认为。

所以我就没有太在乎他的经验, 而更在乎我是不是创造了一个更好的环境, 这个环境让大家更快地, 更快的提升学习, 让大家互相的所谓 MOPD

,我们说的,就是互相的针流,我针流你的长处,你针流我的长处,互相这样快速的提升。

对,就是我更在乎说,我自己创造这个环境是不符合这样的一个限约条件的,而不是在乎这个人来的时候,他的历史背景的这个基因是不是好,我

只在乎他的可能初始化企业和破坏者的上限高不高,我只在乎这个事情, 但我不太在乎他, 她目前已经被su perv ised的哪里过后的那个点

的状态高不高我就不太在乎这个那你会选什么样的人啊就是她的学历是需要和人工智能相关的吗看做什么东西看见博士的比例是 55% 对那是包含

再读博士对再读不是博士毕业是再读博士那些数字我觉得是有点刻板的然后嗯,其实这更多是代表一个人对做研究的热爱

程度。

就如果他对做研究热爱,他可能会选择至少读一个硕士或博士。

然后,但我发现现在更,我们也招了非常多的本科生, 然后本科生在对这种AZ的这种新的方式, 范式的理解上,我觉得反而他的想象力会更高

,所以我现在反而招人会慢慢倾斜到去招更多的前置的本科生, 我们会去招大二大三的人。

为什么呀?

因为他们的灵活性和适应程度都感觉没有被污染,就天然更接纳这个事情会。

产生巨大价值。

对,因为他的思想还没有被禁锢的感觉。

然后,所以他敢放心大胆地把自己那些想法交给这套家屋去验证, 然后自己不断去探索这个边界。

那你怎么创造环境?

首先是构建这个环境的人, 他是要有同样的, 特质的就比如说我说要强调热爱这个事情,然后强调使命感这个事情,我觉得是要有这些基础的特质的。

然后其次又是在这些特质因为它都比较虚嘛, 所以你信 ,所以另外一个就是要把这些特质给真的给放大的一个前提是它的基础要好,就是它要有这

些特质的特质。

嗯嗯嗯就是你可以以为是当他想做什么设计的时候哦他有这个热爱的时候他要能做成就他这个基础要好他不能就光就想法都在做不成就这个基础是构建

成他最后做不做得成的关键要素这是个技术能力对对所以我们会选基础好的然后哦好奇心肠的然后哦热爱驱动做事情的当然还有一些可能嗯越来越会有一些更

嗯更多对多样性有更高的要求对多样性有更高的要求因为如果招的太同质化那么大家很容易去 miss 掉一些嗯看起来是噪音但实际上对研究非

常有价值的一些信息对然后那么这个时候多样性会非常重要嗯所以我们上班那个嗯每个群集在那聊了挺多的对就大家都

会疯狂的嗯把自己的想法或者说关注到的信息给分享出来嗯然后或者说有可能是在群里面有可能就在座位上反正吵得不行一天到晚然后我觉得这样的

沟通环境是非常好的然后当然还有一些外部就是这是内部好还有一些外部的因素就是比如说你的基地的方式就不能太围绕着某些非常确定和清晰的目标来做

然后以及我觉得这个激励方式,钱是一个很重要的base line ,但是它不是唯一的base line ,对,就是钱要给够,但是除了钱之

外的其他东西也非常的关键 ,就是它的价值感,它的意义感, 其实我觉得很多人远远更在乎这些东西。

你刚刚说后训练团队搭建方式和预训练会有点不一样。

通常我们在后训练上看到的人,就两类会适应得会非常好,对, 或者说他对这个事会更有热情。

第一类就是他会更注重去跟模型玩的这样一群人。

对,因为他去玩他才知道每个模型能力的边界在哪儿, 然后他才会去想要去找到一种可sc an的方式, 去把他这个边界给补充回来。

有可能是去构造一批更强的数据, 以及更强的环境让他能够R O训练起来。

然后有可能是fo rbid 到预训练的某个环节, 可能这批数据没做好,我给我把这个数据给它补上, 这一类的数据给它补上, 那么可能我下次去

模型的时候会更好。

总之就是更在乎模型体验的人, 更跟模型交互的频次更高的人, 他会非常适应这个方式, 因为我觉得这个迭代是有价值的, 尤其是那些维护了自己很多

私有的测试库的人, 然后他疯狂去测不同模型的边界, 然后突然发现某个模型强了, 然后分享出来自己这种独特体验的人, 我认为还是蛮适合去

去进入这个方式的还有一个就是确实我觉得不可避免是我们要用新的Ag en的方式去设计它很好的 R2的音法体系所以做R 2的音法跟做Pr

int 2的音法有一个非常大的不同是 R2的音法会更在乎这个模糊程度我自己认为比如说我们出现一个low spike 你就不允许它出现你要想要

把这个s pike 给它解决下去但做all in file 你就要允许它容错就是容错就是你允许这个模型跟这个ag ent 在这个a gent

框架边如如如到一半这个垂直路就断了但它断的原因有很多种你根本找不到它是哪一种它有可能是因为这个ag ent框架写了某个超时的逻辑

有可能是因為他做這個任务需要很长的验证流程那就罢了你不知道它是因为什么原因这个就断掉了还有一个就是会不会你的训练跟推理是在异构

的集训上训的然后所以你的训练和推理的不一致性我觉得在原来Co lgan Mass 的那个R isne y那个范式里边是不能容忍这个事情的但现在你

必须要容忍这个事情然后引起你怎么去做一些更多的异构资源的调度比如说现在除了G PU你还要管CPU 然后你还要管存储 ,对吧?

然后所以就是怎么在这种很复杂的一个资源里边把这个模型迅起来, 然后就是我觉得这里边需要很多算法跟工程的一个妥协, 中间这个模糊的地带非常多,

然后所以它对英法人的要求的灵活性的要求和这种, 这种跨在两个领域的这样的一个理解我觉得要求变得非常之高然后换句话说其实我觉

得它相比 Punc her来说它都对灵活性和敏捷性都提出了新的要求然后能够适应这个范式的人就会觉得, 他其实没有适应, 就是原来就是有那么一群人,

他比如I NFA里边, 哪怕IN FA是一个相对来说, 追求一个很多事情都是有一个清晰的答案和解法的人, 然后他来做R的I NFA, 还是会以 ...

...

会有那么一群人是适合做R L音法的所以大概我觉得是这样一个变化所以我们那边可能看起来还是至少做P rint rune 音法跟R L音法我觉得还

是分开的不太能够交融因为他们确实对于我觉得对复杂性和精确度的要求会差异很大做RL的瓶颈到底在哪里啊你刚才提到Pri ntrune 其实真正

差不多了其实真正把Age nt的RL 给sca n一起来的团队很少非常少包括海外是吧?

奥索比肯定做这个事儿。

然后其他团队我不是非常了解, 至少我从最重的模型效果上感觉到, 没有sk inni ng到跟 print trai n一样亮起。

这是之前发展的两个方式吗?

你觉得再往后有什么新的方式吗?

不确定, 先把这个方式做了再说。

我觉得我们刚刚聊到那个就是一个生成模型跟感知能力很强的模型联合到一套新的框架去进行二号训练这个事已经足够的在我的规划里边已经足够

了长期并且比较难实现了现在有人说是co ntinue lear ning online lear ning 我现在觉得con

tinue lear ning 和onl ine lear ning 我更多的是代之它跟这个环境产生交互的时候或说跟A zure 框架多能交互的时

候这个框架本身在自己迭代和进化,我是不是这么去定义这个事情呢?

你对未来有什么预期啊?

我觉得未来可能是 26年, 可能是2 7年,可能是更长远一点。

我现在觉得把当下的做完之后。

每天的研究都做好 ,我就觉得非常好了。

你现在工作状态是什么样, 工作节奏?

早上11 点,晚上 1234点。

但这是我的状态, 不代表我们团队其他的状态。

你是叶毛子,是吗?

Um

这里是商业访谈录 ,是一档由语言及世界工作室出品的深度访谈节目。

你可以到公众号关注我们的工作室获取更多的信息。

我们的公众号是语言及世界 ,lan guage is world。

我们希望和你一起从这里探索新的世界。

Loading...

Loading video analysis...