立党AI学习研究完整教程（第一期）

By 立党 lidang

Summary

Topics Covered

85分模型对日常Coding绰绰有余
手搓最小Agent是CS第一课
Headless模式打造你的万能Agent
Agent真正主场:封闭可验证环境
Multi Agent不适合编程场景

Full Transcript

我之前出过一期非常完整的AI学习的视频那么在2026年我给大家做一个简单的更新呃如果你今天想从2020年开始想学AI agent 或者想从在AI行业里面有一些学习或者是有一些研究或者是有一些新的方向你可以跟我来聊一聊这期视频的那些讨论的话题嗯对于一个初学者而言我跟大家建议的是以前我跟大家无脑的是

建议Openai和Entropy的这个订阅会员呃其实我一直是用智谱的会员也很多我是既用cloud也用呃呃 GPT family也用Codecx 同时我也用国产的智谱我也用deep seek充钱所以说我其实今天认为对于今天全世界大部分人的普通的编程工作就不是普通的问答工作哪怕是编程工作而言

其实呢如果你在中国大陆如果你对于订阅这种Openai的这个价格比较贵而且你有门槛那么其实对于大部分的工作而言买智普moonshot就是月之暗面买阿里买deep sleep 买小米快手Mini Max极夜星辰我这里一碗水端平啊就是中国所有的这些头一线二线的这些头部的这些大模型的厂商你都可以买他们的coding plan 订阅会员

deep sleep你就可以直接充钱啊大部分普通的这些模型是很好的而且你直接用就可以了在大部分的工作里面他们性价比很高能够解决你们普通人的日常的coding需求就可以了就是这些模型你可以认为是80分或者就90 分的模型我觉得这些模型啊对于学生用或者对于大部分工作上班族用是没有任何问题

95分的模型呢非常强大这毫无疑问但是呢对于普通人来说呢太过昂贵而且对于大部分人大部分人的问题来说呢你烧钱买95分的产品你性价比不高对于大部分日常的agented coding的任务 85分和95分的模型没有显著差异打个比方就是说如果你拿一道非常非常难的一道世界级的数学难题你给呃一个陈醒申

邱成桐陶哲轩他们来做那可他们能解决我是解决不了的但如果你拿一个初中级别的一个数学问题今天大部分人就写个前端写个full Stack 全栈的一个一个APP 写一个什么之类的这种工作其实你不需要那么聪明的模型去完成你只要大家都用cloud code 都用Codex 都用什么各种各样的open code 那么在这个情况下呢好的模型和差的模型没有那么大的差距普通人是感知不到多大的差距的

在这么一个大的前提下你不要去花钱去买特别贵的模型是没有必要的普通人用普通的模型性价比很高也没有任何问题好吧这是我要跟大家讲第一点就是如何挑模型的问题啊嗯第二个是要学习SB agent概念啊就是当然姚顺宇他有react agent和SB agent写的概念但是这个是我 2023年我先我比他提出来的要早

姚顺宇是2023年9月份提出来的我是4月份提出来的我比他要早啊人类的在SW agent的这个呃问题上 coding agent这个问题上我比所有人都要早这毫无疑问啊啊呃我今天给所有的大学生的第三个问题呢就是呃你们要做到第一点也是学agent的第一节课就是你要自己手写一个自己的一个minimum 一个SW agent

就是一个最小的coding agent 自己最小的一个agent 要让它来写出来而且要跑出来这是今天所有计算机系以及可能现在有很多大学开人工智能专业开AI专业的这么大学生的一个基础课基本课是你们的第一节课第一个作业所有古代的计算机系的学生呢就是过去几十年的计算机系的学生都有一个特点就是他们喜欢手搓好多玩意儿

比如说有的人说我做一个啊Lisp的一个interpreter 做一个Lisp的编译器做一个操作系我手写一个操作系统手写一个数据库我设计一个Javascript的方言或者我写一个Javascript的一个比如说像这个polyfill 或者是我写一个Javascript的一个transpiler 或者啊Javascript到typescript呃 typescript呃 typescript到Javascript的一个transpiler 什么各种各样之类的编辑器操作系统

数据库啊这个这这些东西是以前大家最最熟悉最喜欢写的东西那么从2026年开始从2025年其实这个是我跟你们2025年开始甚至我2024年就跟你们讲过这个问题就是现在开始每个大学生里的第一节课是你要写一个手写一个minimum的一个SW agent要写一个agent

必须要自己从头到尾手敲一个agent 或者是用用你现有的cloud code 来写一个agent 这是普通大学生的当代计算机大学生的第一节课这个是跳不过去的你不写这个东西你大学可以说是白读或者不及格然后你可以把你可以去了解一个SW agent 基本的一些功能比如说task scheduling拆分

比如说一个TA一个一个prom进去你要拆分成几个task 这个你prom是要怎么写一个agent 他如果持续完成一个任务他如何写loop 如何写流程控制如何需要用户的输入如何你在用户你在给大模型输入这个input的时候你如何拼接成一个正确的prompt 给他正确的function calling 把function calling MCP都都喂进去然后你啊

然后你的大模型的这些output 这些API output的时候你如何正确地写parser 你如何正确地执行一些任务比如说我要执行在terminal里面执行一个bash的命令或者我要在什么什么里面执行一些什么什么的命令 HP request response 我要执行把这些agent最核心的功能第一件事是参照别人的我不是说要抄但是这个东西是你一定要参照

这是课本内容这是目前大家的一个最佳实践就是你要参照Codex或者参照cloud code 看他们是如何写的第二件事是你自己设计出来你自己的这一部分功能正确的设计出来并且让他跑并且让他通过测试然后呃只要把这些功能核心的功能实现出来你就可以实现了一个你自己最最基本的一个minimum的最小版本的s v agent

这是每个大学生计算机系大学生 AI专业大学生的第一节课把这些核心功能首先是看懂第二是想明白设计明白第三是把它实现出来把这三步实现完了之后你就是一个合格的一个在agent领域里面入门的一个大学生 agent的一个function calling或者to calling呢就是基其实s最小的SV agent

就是只有terminal和文件的读写就是基本的terminal执行 terminal读取output 基本的方案 i o的读写把这些功能实现之后你的SV agent就可以正确的运营正确的运行那么你就完成了你的第一节课嗯嗯完成了第一节课之后然后你会接下来一步是完善你的agent 你记住啊我我之前在推特跟你们讲过一个问题

就是最最初始版本的SBA agent 和今天的cloud code 和今天的Codex 和今天的这个呃类似open code g code Kimi Kimi code这些先进的这些这些开源实现或者是闭源实现他们已经经历了四五次的这些工业革命有play mode出现了然后TUI然后如何优化也出现了

然后memory也出现了所以说我今天要告诉你们就是说你要实现你的第一个版本就是你发你已经发明了马车但是你要看一看今天的高铁是怎么设计的高铁不是那么复杂的设计但是高铁里面有很多的设计的这个细节从马车蒸汽蒸汽机车开始你已经实现了第一节课那么你要和看一看和今天最好的这些开源的实现你有哪些差距

Codex open code Kimi code 你们都可以去作为一个参考那么你如果你看不懂它的code base 比如说它是用rust rust 比如说Codex是用rust写的你看不懂rust 那么你就去用呃cloud code 或者Codex自己去帮你去读懂他们的代码看懂他们的是如何实现的那么他们会有大量大量的实现的技术细节和机制

细节可能特别特别多极其多你可能看不懂看也看不肯定是看不过来但是大的他们那些现代的coding agent的一些机制你是要看懂的大条的或者是重要的或者是主要的这些你是要看懂包括如何实现long term memory 也包括每个agent和每个SUB agent SUB agent如何实现他们的long term memory 如何实现 Multi agent

就是一个agent一个一个工具里面它在TUI里面它可以帮你管理Multi agent 帮管理多个SUB agent 那么它是如何实现这些agent如何调度如何去读取它的状态如何去看它们的工作的环境如何看他们的输出如何管理他们这是一个大问题第三是如何管理background tasks 就是你后台运行了十几个terminal 或者是多多少个terminal 这些任务

你如何去管理他们然后是是如何实现skills plugins这些插入式的context 就是如何让你的agent 去正确的去使用它的plugins 或者是正确地调用这些skills 那skills就是一堆Markdown 如何正确去使用如何去读它的description 如何读取它的title 然后如何在正确的时候根据title和description去pick up 去选取你正确的skills

这是你这是一个这是也是他们目前实现的一个机制这也是一年多前的机制了好吧如何做好context auto compression 就是你的你的这个上下文过长然后你如何去手动去压缩你的上下文如何去自动压缩你的上下文这也是一个现代的一个机制如何更好地控制你的Loop和workflow 对吧它呃cloud code和Codex

一定不是简单的就直接Loop 无限Loop 或者是无限的就随便给你停掉如何判断这个loop 如何让agent去判断这个loop 如何让呃这个loop在正确的时候停掉这是也是你你要关注的一个问题然后如何还有一些小问题像如何控控制Sandbox环境比如说我这个一个agent 它要写代码它要运行一个很大的一个一个一个程序但是啊这个Sandbox如何去启动

比如说我在Docker里面如何去启动然后运行到什么地步如何监控它如何让它停止如或者如何如何控制它的这些参数如何控制Sandbox环境对吧还有如何自由配置MCP 这也是很重要的一点还有是如何初步实现可视化和可观测性哪些应该给用户看哪些应该你自己判断哪些千万不能给用户看哪些用户看了会烦如何设设计更合适更合理

人机交互体验更好的terminal UI就是TUI 这些东西都是目前当代流行的这些coding agent 你要认真学习的这么一个几个基本的方面我认为这些东西都值得你去花时间去思考和学习首先把这些学习好了之后你才能提出创新你先把这些东西学好然后去尝试实实现一下实现完以后自己有一个基本的一个轮廓然后

你才能去提出你自己的新的观点然后再去实现你自己的创新好吧对于大部分不在大厂不做核心agent业务对AI没有信仰不在AI start up 甚至很多人写代码写不利索不会写代码不会编程这个时候我就跟你们讲这是我去年年下半年的时候我因为我这个事情我也讲了很多事很很多很久很久很多人不听

所以我把它单独写成一个帖子很多很多人用这方法去去实现了就是说你就你就用好你的class code 然后建立一个文件夹你不要就是我之前刚才说的这些写coding agent对于很多人来说是非常难的那么这里有一个简单的办法简非非常简单的办法就是你给你的cloud code绑好银行卡然后你设置一个temp folder 历史文件夹把所有和任务相关的文档

表格报表图表报告 Sqlite数据库 access数据库PDF扫描件儿数据Markdown代码图片之资资料指令prompt configure 也包括skills 一大堆东西全放在里面然后你写一个nodejs或者burnjs 或者Python脚本从terminal里面调用cloud code headless模式将所有的呃你要讲明白

你的指令和文件夹默认开启权限就是用那dangerously skip permission 然后就是把所有的权限都开启成功存储在一个JSON file里面失败了也成功成功了就把就把你所有的状态和输出存储在一个JSON file里面失败了也在这次file里面更新状态配置好cloud code authentication和MCP之后呢嗯等让cloud code自己去authentically 解决整个问题汇报结果

充好钱给我等给我等一直给我等他可能跑呃可能跑一分钟也可能跑三年你这个你这个东西就等等process结束之后读取这个上面你存储的这个Jason body 进行下一步这个东西是非常简单的这是高中生都能干的活所以说如果我上面说那些agent开发或者agent什么之类的整个的流程你你看不懂也看不明白

更更不可能自己完全实现一遍那么用已有的cloud code 我这里也要说也包括Codex 也包括open code 也包括Kimi code 也包括z code 也包括什么这个所有的这些都算上你们都要这么做这是很重要的一点这一点能做到的话那么你就有了一个你自己可以完全定制化的一个agent 这个比任何的其他的

无论你在公司里面有一个好的流程或者是你在做一个ToC的或者ToB的一个产品做好你自己的SARS 这个都是很好的一个方式好吧相信我啊这是绝大多数不在大厂不做核心agent的业务对agent没有信仰不在startup 这些人这辈子能设计出来的最简单最强大最可靠最皮实最好用最省事最方便最稳定最可维护最容易理解最省钱

最省时间的宇宙级通用AI agent 如果你能做出比cloud code喂狗屎和手工function calling更好的设计那么以以及比如说你会你你知道上下文怎么管理比如说我就做一个哎呀蔬菜水果销售类的agent 那么你这个小领域里面你的上下文管理一定比cloud code要好得多你这么做你一定会是更省钱或者你有自己的LM的省钱小妙招

或者你会更好的管理上下文你更懂你的业务场景你比cloud code更知更知道如何节约cash input 或者你完全懂你在做什么事情那么你不用听我的建议你可以直接划过去否则的话对于99%的人而言我这个方法是一个通用的一个呃灵丹妙药万能万能药的方法好吧否则如果以你的能力范围你是很难设计出来比这个a证更好的一个方法这是跟跟所有的非计算机

不会写代码的这些人讲的一个最基本的原则这是我去年跟你们讲价值10万刀价值30万刀的这么一个一个想法很多很多人就感谢我说就是哎呀其实这是一个这个行业里的一个最基本的一个思路就是cloud code 设计出来就是为了让你这么用的但是很多人他不懂所以这个事我必须用中文再给你们掰开揉碎的讲一遍很多人才明白懂了吧这个东西只要你不是程序员你不懂怎么设计agent

你一定要用这个方式来做agent 多花点钱省你自己的时间省你自己调试的时间多多花一点点钱用用好差一点的模型其实也花不了多少钱但这个东西一定是更空更通用更强大以及更呃呃泛式更多的这么一个通用的agent 就是你不要老是说我呃保险用一保险我从头设计个agent 蔬菜水果销售我设计个agent啊算账我设计个agent

然后设设计一个比如说像什么这个啊啊防盗门我设计个agent 然后什么这个装修材料设计你不要这么做 agent是一个人你可以把agent抽象成为一个有人格有解决能力办事自动化的这么一个人那么agent的他自己的设计足够好以及你把agent本身的数据喂足的情况下 agent可以解决任何的问题

只要你的模型足够强大那么你用一个好的agent框架以及用买你能买的比较好的能买得起的最好的模型一用一个通用的agent解决问题一定比你自己手工瞎鸡巴搭一个agent要强 99%以上的场景就是这个道理 1%的场景你自己搭一个没有问题但是对于99%的场景来说如果你不会编程

又不懂这个又不懂那个那我的方法就是我讲的这个方法就是最好的方法其实这也是cloud code希望你们完成的方法但这个很多人不理解我今天就掰开揉碎的给你们讲一讲这个最基础的教程好吧第五就是说对于所有对AI感兴趣的非程序员甚至非工科生你要明白一点你要反复使用agent 你要摸清你agent解决问题

解决任务的这个场景下他的能力的边界思考AI agent在纷纷繁复杂真实业务中的使用的场景这里我还是那几个原则这里你要翻我跟上一我跟2025年 2024年跟你们讲的道理完全相同第一点AI agent不是神不是超人不是黑箱不是玉皇大帝不能做出超越因果判断

和信息论的东西什么叫超越因果论和信息论呢比如说你给我解决一个这个呃哥德巴猜想吧哥德巴猜想它是不能解决的人是不能解决的 agent他没有那么强的能力以及没有那么长的reasoning能力的时候他也很难解决日对于百十四亿人来说的解决来说都很难对于8十亿的人来说都解决不了的问题你说agent你给我轻松解决那不可能的事情对吧比如说

明天预测一下明天彩票中什么奖这个东西不是a站来预测预测明天微软微软是涨5%还是跌10% 这也不不只是agent 连人也预测不到这个是完全预测不到的事情对吧比如说你说给我证明一个离面猜想我说他妈全世界最最聪明的人都证明不了离面猜想让agent让你自己答出来的 agent这些prompt 这些harness 你让他来证明离面猜想这是一个非常愚蠢的事情

那不可能的事情好吧啊你预测今年最赚钱的股票今年跌得最多的股票啊预测3年后啊墨西哥的GDP 预测什么法国巴黎到底有没有这个制造业公司啊这个东西都预测不出来这个不是AJ的能力范围内的东西这个人是不能预测的因为这个东西你知道他违反因果论违反信息论你人是不能有做出这种

哪怕做出简单的预估模糊的预估我认为都是不负责任的那么AJ呢肯定会给你一个答案比如说啊我觉得墨西哥很好墨西哥能GDP 墨西哥经济一路长虹这个东西你信不信呢你肯定不信 a镇可能就搜索了三五个网页然后把它汇总一下就说墨西哥经济一路长虹问题是它能涨5%还是跌5% 这个东西它也许也许有一个什么经济危机

就把它墨经济打下来了也许有一个好的机会它它就涨上去你猜不到所以说a镇不是超人不是神你自己要明白人不能解决的问题以及人不能花时间没有没有信息没有因果论能解决的问题 agent也是一定解决不了你拿agent当算命他一定给你个结果啊我觉得这个都都得涨

或者我觉得这个可以的实际上那个东西是不呃一定是违反因果论的对吧就跟一个人一样你你给我说你问我对吧你问我这个什么什么能涨多少我说我大概其能估计估计啊 Google能涨一点啊这个这个Mete能涨一点啊拼多多股票能涨一点那这个东西你说我负责吗我也负责不了这个事情对吧哎真的也是一个道理他有他能力的边界

他有他对信息来源的边界有他的认知的边界在这个情况下你不能指望他去给你预测和预测所有的事情也不能指望它去解决对于人来说都极其难解决的事情对吧第二个是就是我要跟你们讲一点就是一个任务先有先必须你如何判断一个agent能不能解决必须先判断人有没有能力来完成

人有合理的流程和方法论能够系统地解决只不过人人是浪费时间我不愿意浪费时间但是这方法论和方法我是我是告诉你了流程我是告诉你了那么你才能够让agent自动化以自动化的形式以机械的方式 step by step一步一步去完成前提是一有足够多的上下文有足够多的数据文档图表

照片什么视频然后这个这个图表数据然后数据库都有第二是有足够正科学正确的流程流程方法你要agent去完全参照你的流程和方法去执行那么它是可以完成的否则的话没有上下文我没有知识我没有信息我怎么我怎么完成我完成不了没有正确的流程那我自己瞎找一个流程那我觉得那个东西风险也很大所以说这个东西都是这个东西

都是不合不合理的使用它的方法好吧 AI agent然后这是我自己要跟你们讲 AI agent 最目前来看我自己认为能有它自己最适合的一个舒适区当然很多人说哎呀好多金融的这个企业或者金融的保险咨询都用AI agent来解决大量问题我说是的他们是在用但是他们作为输出的研报

或者是报告作为一个参考那么我作为我站在我的角度来说我告诉你AAA站最适合最完美的场景是什么场景我今天要告诉你首先是封闭环境就是你不要和外界有特别特别多的这个接触和这个交流对吧哎呀我去看一看股价吧我去看一看天气吧我去看一看山东的哪个农贸市场里他这个数他那个猪肉价格苹果价格到底多少

你这个东西是很难的这个东西有各种各样的杂音和不确定性你你判断不了所以说他们当然可以做但他们不完美我今天告诉你一个AI AI agent 如果你要做AI agent创业或者研究我告诉你他们最适合的一个完美的应用场景是什么首先是封闭环境本地电脑尤其是3 box隔离的沙箱这是最好的环境在封闭环境下可以完整编译

完整运行完整模拟完整仿真可以无限试错搜索空间巨大可以并且可以精确验证的场景就是还是那句话 go driven是我发明的我要告诉你们一点就是go driven 它的一个前提是你必须可以验证可以仿真可以在本地就是你是一个非常非常确定的币包你可以运行可以编译

可以仿真模拟同时你还可以验证这个环境下的一切问题都是AI agent最适合的完美的解决工解决问题的工作环境它包它包括哪些环境呢我来跟你们一一讲第一是编程计算机我有一个程序我我我比如说我写一个算法我写一个数结构或者我写一个图图的一个一个算法或者我写一个

比如说数据库的一个什么算法或者我写一个编译器本地运行本地测试本地报错本地输出结果或者是我有一个相对稳定的云的环境我就是呃就是在AWS上面有多少个节点然后我我用这些节点去跑它们是非常封闭的环境所以说在这个环境下编程的输出编程的测试编程的报错编程的反复的尝试反复的迭代

反复的去更新这是你自己agent 最适合的一个舒适区这是第一点编程第二点数学就是lean four lean four构建证明本地编译本地检查然后你可以用arctime 或者是读读一些其他人的paper 作为参考但是数学本身是可以在计算机本地完整的构建证明

本地写了Infor的代码检查这也是一个闭包的环境在这个闭包环境下数学也是一个完美的场完美的场景只不过目前用lean for去证明这个问题难度比编程要高得多但是不代表说不可能它只是说难度要高太多以以后的模型的模型的这些啊迭代一定会让它有一个提升第三是电子设计

芯片就是各种Hardware description language 硬件描述语言所有的芯片的设计以及也包括PCB的设计以及包括系统级的一些设计都可以用AI agent去帮你辅助设计因为这些东西在本地仿真已经有非常非常完整的成熟的过去三四十年的一个完整的一个商品了

所以你买任何的EA EDA的工具 verlog v h d l spino HDL 或者是其他的这种HDL 或者是什么system verlog 各种硬件描述芯片电路的描述的这些语言都可以本地设计本地synthesis 本地RTL本地仿真本地Ver verification 本地运行本地仿真本本地验证这是一个本地完整b包

当然你说这个东西有没有错我说肯定是有错因为所有人都明白仿真不是目的仿真之后一定要留片一定要现场测试才能才能知道你这你这个芯片到底对不对但是总体来说电子设计 EDA这个东西是一个非常完整本地运行的一个b包它的算法它的这个它的整个这套structure都已经完善了那么本地运行本地设计

完全是可以拿到本地验证的复反馈在这个大的前提下你AEH是一个非常理想的工作环境对吧第四是芯片系统级的仿真嵌入式单片机的仿真这也是我刚才讲的一点然后是MATLAB加Simulink对吧很多人很多计算机的学生他不用MATLAB 你看之前听我的一个视频就知道一个一个清华的一个学生他他计算机系的学生他不用MATLAB

我说MATLAB和他们里面的Simulink 每个Toolbox代表比如说机械的空气的热力学的流体的量子量子计算里面所有的东西都有two box 都有这些工具机工具箱他们可以把他们抽象成为在CI 或者在MATLAB API 或者是以什么以script形式以tobox形式去进行真真实的抽象以各种各样微进去参数啊

什么的形式进行真实的模拟仿真那么只要agent在街上这些参数有MATLAB的运行环境有simulink 你只要花钱买了注册号它就可以在本地进行完整的信号仿真电子仿真电力电子的仿真模拟器仿真传感器仿真这个这个信号这个这个各种各样的这个机械的仿真流体力学都可以仿真那么只要它能仿真

就可以让AI来进行真实的这个开发真实的模拟测试和真实的探索和研究这是这是MATLAB留给人类最最好的礼物就是我认为MATLAB是一个非常适合AI进行你可以看吧 MATLAB它的Toolbox可能有100到200个每一个Toolbox加上agent 可能都是一个新的领域里面的一个一个新的一个呃

完全自动化研究的这么一工具所以说它是一个大宝库很多人不用MATLAB 说你不要这个样子 MATLAB还是要用的啊还是要懂的因为在a站呢还是那句话我帮你们筛出来一些最适合的完美应用场景我说我给你们做做金融啊 AA证做金融啊这个市场上股票那那那不是封闭场景那是公开场景啊那你有对手啊那市场上那么那么乱

几万个人几几十万个这个人在上面做交易一一堆量化的做交易百分之七八十都是量化做交易你怎么你怎么测试这东西测不了物理世界信号世界电子世界流体力学热力学什么这些东西他是真实的在本地能模拟的也包括什么大气气象地球物理也包括什么太阳系宇宙这些就是那些基本的这些

这些东西它是可以模拟的有模拟的模型有模拟的方法有模拟的MATLAB MATLAB工具箱或者EDA的工具箱你就可以真实的用AI agent 去写好他们的function calling 写好他们的文档让AI agent来帮你去完成这是一个最大最大的一个我我认为是最我认为是未来目前未来 AI agent最适合的一些场景和领域

第五就是c a C a d 机械设计也包括什么UI设计 UI设计我我之后我会单独我我单独出一期视频再讲吧下一集我也给你们讲就是今今天给你们讲机械设计 CAD包括auto CAD 也包括其他的一些CAD 用用AI引擎写list来操作你的Autocad 就是Autocad 用它Autocad来操作你的Autocad 这样的话呢机械设计这一环

CAD是一个完整的一个设计模拟仿真的这么一个环境那么这个环境里面呢你也可以完全的在里面去完成你的这种你所需要的设计这个也毫无疑问也包括g code 什么数控机床也包括PLC 也包括大型的控制系统大型的工业系统都可以用这这种方式来去设计因为AI agent最适合的场景还是那句话一封闭环境2完整运行完整编译

完整模拟完整仿真3无限试错操作空间巨大4可以精确验证只要你满满足这一点我给你筛下来的这几个场景都是可以用AI agent来去带来行业爆发我我这里每一条都值我我认为我这里每一条都值1,000万美元啊我我这里每一条可能都有很多公司在在做 1,000万美 1,000万美元的级别的事情甚至是比如说像数学这个

EXOS什么之类或者就是EXOM这公司他已经融了一个亿美元了就是这很多公司在在做这个事情所以说我跟你讲这些都是给你们的饭碗给你们的金饭碗你们要愿意传统工科这些行业里面你们愿意研究就MATLAB里面一个一个工具箱挑一个一个筛就点菜一样哦要这个我要吃那个我要点那个你尝试把它这些工具箱里面的这个文档

里面的参数抽出来让AA阵在里面去运行你看一看它的结果会是怎么样的它一定会告诉你这个东西因为它有只要搜索空间巨大让a h跑10个小时它一定能帮你解决一些你你能你想解决或者你未来想解决的问题这个毫无疑问好吧 AI h未来的优势和趋势这是另一个大的话题这个话题我会在下一期视频跟你们详细的讲这里期我跟你们简单讲一讲

首先coding的场景它适合AI agent AI agent但是它不适合Multi agent Multi agent比如说我有1,000个agent 我希望它能至少实现 100倍的效率提升就是我希望我用10倍的我用1,000倍的成本去实现100倍哪怕是10倍的提升我认为都是有有价值的因为1,000倍的成本

它其实就是钱的问题但是我是我提升10倍的性能的提升 10倍的效率提升它不是钱能解决的问题所以说Multi agent一定要理解很多问题是我用1,000倍的agent 我解决不了一倍的提升那那这个东西就没有意义了我的我跟你们讲就是TOKEN一定会越来越便宜 Multi agent的并发度一定越来越高 TOKEN一定越来越快 Lolam的模型一定越来越聪明在这个大前提的前

在这个大前提下 Multi agent是你能相信的唯一的一个post training 唯一的一个这个agents scale scaling的这么一个一个一个一个方式所以说如果你能用1,000倍的a阵实现10-100倍的提升我认为它是一笔极佳极佳的投资事实上你是做不到这一点事实上就是哪怕是提升三五倍我认为都是极佳投资但是首先我要给你们讲

不适合的场景编程它就不是一个适合Multi agent 七手八脚的这么一个场景首先七手八脚文件代码 merge代码这个东西非常非常危险需要很好的管理我觉得coding这个目前用很多很多agent 10个20个agent的去做也包括我在去年就跟你们讲过我设计的full self coding的那个那个项目很多很多星星但是我跟你讲这个项目

以及目前很多YC 他们在投的以及很多人在尝试的这么一些东西都不太适合为什么coding更适合一个人单道趟一一次走到黑这么一个方方式方法而如果1,000个人给一个项目去贡献代码这个就容易产生code management 或者software engineering management 的一些问题就是软件工程的管理项目的管理代码的管理

都会出现大的问题七手八脚给你贡献代码最后一定会一团糟所以说Multi agent 它不太适合于编程问题但是我没有说AI engine不适合我只说Multi engine不适合好吧第二是多个Multi engine 通过不同角色的上下文按照流程顺序来完成工作并且这工作是顺序串联 sequentially完成的

那么其实它的效率小于单个AI engine 持续工作就是当年那个叫matter GPT这个那个项目就是他的做法是把一个大的团队抽象成几个角色对吧 matter GPT他当年他的做法是什么呢就是我先模拟产品经理然后架构师程序员然后code review 然后q a test 然后再回到程序员再他这个做法其实小于单个action 持续工作因为你是等于说

你把一个多个action的过家家但是多个 action他其实是串联的工作你先完成完成完之后交给第二个第二个完成交给第三个第三个完成交给第四个 sequential了一个一个他是当时你看他那个那个paper里边的那个那个设计那个论文里面一个一个一个一个一个一个这么走那它的效率是很低的你串行完成一定就很低你你还不如一个进程来做你可以说我为了上下文的干净我为了把它隔离开一个一个串行

但它其实做不到 multi-agent就是并发级别的大规模的这种效率提升它是做不到这一点的所以说我认为这个东西也是没有特别大的价值第三也包括就是公司架构模拟或者团队架构模拟七嘴八舌没有产出对吧像之前很火的 GitLab上爆火的agent agency 也包括什么这个open cloud里面的有一些人的设计

也包括现在的腾讯的work body也包括大量的crow AI也包括就是这个东西不是今天出现就是两两年多前三年前那那些像那个他叫那个叫什么什么这个就是Multi agent communication 那些protocol 那个之后就出现一大堆crew AI那些东西公司架构乱七八糟七嘴八舌你让这些agent呢去一个这个agent跟他说一句他跟他说一句

他跟他说一句他跟他说一句他跟他说一句他又跟他说一句他又又说回来了这个架构就跟那个胡闹厨房一样就分手厨房一样你最后没有产出啊你你闹我一句我我我说你一句谁来决定谁来管理没有管理这个东西就就就非常非常麻烦这种实现最后实现出来一定是一团糟一团乱麻这个是很多很多人

过去两年三年的时间很多很多设计Multi agent的人踩了一个大坑只要是公司架构模拟啊软件开发项目模拟什么什么模拟这个模拟那个模拟架构一团糟你跟我汇报我跟他说一句他跟他他跟他写作他跟他写作一定会没有产出这是这个是这个是目前过目前来看过去两三年大家公认踩的一个超级大天坑

这种东西像腾讯的work body 一些包括好多我知道现在好多飞书啊也也在可能在做这种东西千万不要用这种东西你可还是那句话我说好不好可能不太有价值你要用一用看一看这个东西能不能真正的以Multi agent的这个尺度来提高它的效率我认为是没有的或者是你要认真找场景可能有那么一两个场景好一些

比如说就是扮演过家家扮演联合国或者是你研做一做管理学的研究我看一看你们七嘴八舌到底能弹出来什么东西我看一看你们的谁是大傻逼这个东西是可以做的但你要把这种东西放到生产力环境里面去做那那不好意思这个东西是是是有大问题的好吧我认为Multi agent是值得的一个工工作嗯

一个是大规模的并行并行任务就是说如果你的组织架构很干净一个人管两个人两个人每个人管四五个人就是完全的大规模的并行任务比如说先把任务map给多个agent 然后再reduce成一个汇总一个任务 map reduce这东西是我读书的时候Google就发的论文啊把一个任务拆分然后怎么样再reduce起来如果你用Multi agent 那么你可以做一个超级大规模的网页

搜索啊爬虫啊文献啊信息来源做research啊大规大规模的研究大规模的这个调研大规模的这种survey 大规模的爬虫大规模的数据清洗并行客服大规模审核都可以这个是Multi agent 最Multi agent最适合的场景因为它足够并行足够独立拆分那么你只要汇总一层一层汇总这个架构是很干净的第二是做好流程控制和管理的 Multi agent go driven 这个东西呢

我在GitHub上已经开源了好长好长时间了 1,000多个star 你们可以再去看这期视频呢就先讲到这里下一期视频我会跟大家着重的讲AI agent里面如何用管理学的方式来做好真正合理的Multi agent的这种这种管理好吧今天就先讲到这里有问题的可以在评论区先问好吧

Loading...

Loading video analysis...