LongCut logo

立党AI学习研究完整教程(第一期)

By 立党 lidang

Summary

Topics Covered

  • 85分模型对日常Coding绰绰有余
  • 手搓最小Agent是CS第一课
  • Headless模式打造你的万能Agent
  • Agent真正主场:封闭可验证环境
  • Multi Agent不适合编程场景

Full Transcript

我之前出过一期 非常完整的AI学习的视频 那么在2026年 我给大家做一个简单的更新 呃如果你今天想从2020年开始 想学AI agent 或者想从在AI行业里面有一些学习 或者是有一些研究 或者是有一些新的方向 你可以跟我来聊一聊 这期视频的那些讨论的话题 嗯对于一个初学者而言 我跟大家建议的是 以前我跟大家无脑的是

建议Openai和Entropy的这个订阅会员 呃其实我一直是用智谱的 会员也很多 我是既用cloud也用 呃呃 GPT family也用Codecx 同时我也用国产的智谱 我也用deep seek充钱 所以说我其实今天认为 对于今天 全世界大部分人的普通的编程工作 就不是普通的问答工作 哪怕是编程工作而言

其实呢如果你在中国大陆 如果你对于订阅这种Openai的 这个价格比较贵 而且你有门槛 那么其实对于大部分的工作而言 买智普moonshot就是月之暗面 买阿里买deep sleep 买小米快手Mini Max极夜星辰 我这里一碗水端平啊 就是中国所有的这些头 一线二线的 这些头部的这些大模型的厂商 你都可以买他们的coding plan 订阅会员

deep sleep你就可以直接充钱啊 大部分普通的这些模型是很好的 而且你直接用就可以了 在大部分的工作里面 他们性价比很高 能够解决你们普通人的 日常的coding需求 就可以了 就是这些模型你可以认为是80分 或者就90 分的模型 我觉得这些模型啊 对于学生用 或者对于大部分工作上班族用 是没有任何问题

95分的模型呢 非常强大 这毫无疑问 但是呢对于普通人来说呢 太过昂贵 而且对于大部分人 大部分人的问题来说呢 你烧钱买95分的产品 你性价比不高 对于大部分日常的agented coding的任务 85分和95分的模型没有显著差异 打个比方 就是说 如果你拿一道非常非常难的 一道世界级的数学难题 你给呃一个陈醒申

邱成桐陶哲轩他们来做 那可他们能解决 我是解决不了的 但如果你拿一个初中级别的 一个数学问题 今天大部分人就写个前端 写个full Stack 全栈的一个一个APP 写一个什么之类的 这种工作 其实 你不需要那么聪明的模型去完成 你只要大家都用cloud code 都用Codex 都用什么各种各样的open code 那么在这个情况下呢 好的模型和差的模型 没有那么大的差距 普通人是感知不到多大的差距的

在这么一个大的前提下 你不要去花钱去买特别贵的模型 是没有必要的 普通人用普通的模型 性价比很高 也没有任何问题 好吧这是我要跟大家讲第一点 就是如何挑模型的问题啊 嗯第二个是要学习SB agent概念啊 就是当然姚顺宇 他有react agent和SB agent写的概念 但是这个是我 2023年我先 我比他提出来的要早

姚顺宇是2023年9月份提出来的 我是4月份提出来的 我比他要早啊人 类的在SW agent的这个呃问题上 coding agent这个问题上 我比所有人都要早 这毫无疑问啊 啊 呃我今天给所有的大学生的 第三个问题呢 就是呃你们要做到第一点 也是学agent的第一节课 就是你要自己手写 一个自己的一个minimum 一个SW agent

就是一个最小的coding agent 自己最小的一个agent 要让它来写出来 而且要跑出来 这是今天所有计算机系 以及可能现在有很多大学 开人工智能专业 开AI专业的 这么大学生的一个基础课 基本课是你们的第一节课 第一个作业 所有古代的计算机系的学生呢 就是过去几十年的计算机系的学生 都有一个特点 就是他们喜欢手搓好多玩意儿

比如说有的人说 我做一个啊Lisp的一个interpreter 做一个Lisp的编译器 做一个操作系 我手写一个操作系统 手写一个数据库 我设计一个Javascript的方言 或者我写一个Javascript的一个 比如说像这个polyfill 或者是 我写一个Javascript的一个transpiler 或者啊Javascript到typescript呃 typescript呃 typescript到Javascript的一个transpiler 什么各种各样之类的编辑器 操作系统

数据库啊 这个这 这些东西是以前大家最最熟悉 最喜欢写的东西 那么从2026年开始 从2025年 其实这个是我跟你们2025年开始 甚至我2024年就跟你们讲过这个问题 就是现在开始 每个大学生里的第一节课 是你要写一个手写 一个minimum的一个SW agent要 写一个agent

必须要自己从头到尾手敲一个agent 或者是用用你现有的cloud code 来写一个agent 这是普通大学生的 当代计算机大学生的第一节课 这个是跳不过去的 你不写这个东西 你大学可以说是白读或者不及格 然后你可以把 你可以去了解一个SW agent 基本的一些功能 比如说task scheduling拆分

比如说一个TA一个一个prom进去 你要拆分成几个task 这个你prom是要怎么写一个agent 他如果持续完成一个任务 他如何写loop 如何写流程控制 如何需要用户的输入 如何你在用户 你在给大模型输入这个input的时候 你如何拼接成一个正确的prompt 给他正确的function calling 把function calling MCP都都喂进去 然后你啊

然后你的大模型的这些output 这些API output的时候 你如何正确地写parser 你如何正确地执行一些任务 比如说我要执行 在terminal里面执行一个bash的命令 或者我要在什么什么里面 执行一些什么什么的命令 HP request response 我要执行把这些agent最核心的功能 第一件事是参照别人的 我不是说要抄 但是这个东西是你一定要参照

这是课本内容 这是目前大家的一个最佳实践 就是你要参照Codex或者参照cloud code 看他们是如何写的 第二件事是你自己设计出来 你自己的这一部分功能 正确的设计出来 并且让他跑 并且让他通 过测试 然后呃只要把这些功能 核心的功能实现出来 你就可以实现了 一个你自己最最基本的 一个minimum的最小版本的s v agent

这是每个大学生 计算机系大学生 AI专业大学生的第一节课 把这些核心功能首先是看懂 第二是想明白 设计明白 第三是把它实现出来 把这三步实现完了之后 你就是一个合格的 一个 在agent领域里面入门的一个大学生 agent的一个function calling或者to calling呢 就是基其实s最小的SV agent

就是只有terminal和文件的读写 就是基本的terminal执行 terminal读取output 基本的方案 i o的读写 把这些功能实现之后 你的SV agent就可以正确的运营 正确的运行 那么你就完成了你的第一节课 嗯 嗯 完成了第一节课之后 然后你会接下来一步 是完善你的agent 你记住啊 我 我之前在推特跟你们讲过一个问题

就是最最初始版本的SBA agent 和今天的cloud code 和今天的Codex 和今天的这个 呃类似open code g code Kimi Kimi code这些先进的这些 这些开源实现或者是闭源实现 他们已经经历了四五次的 这些工业革命 有play mode出现了 然后TUI然后如何优化也出现了

然后memory也出现了 所以说我今天要告诉你们 就是说你要实现你的第一个版本 就是你发你已经发明了马车 但是你要看一看今天的高铁是怎么 设计的高铁不是那么复杂的设计 但是高铁里面有很多的设计的 这个细节 从马车蒸汽蒸汽机车开始 你已经实现了第一节课 那么你要和看一看 和今天最好的这些开源的实现 你有哪些差距

Codex open code Kimi code 你们都可以去作为一个参考 那么你如果你看不懂它的code base 比如说它是用rust rust 比如说Codex是用rust写的 你看不懂rust 那么你就去用呃cloud code 或者Codex自己 去帮你去读懂他们的代码 看懂他们的是如何实现的 那么他们会有大量大量的 实现的技术细节和机制

细节可能特别特别多 极其多你可能看不懂 看也看不 肯定是看不过来 但是大的 他们那些现代的coding agent的一些机制 你是要看懂的 大条的或者是重要的 或者是主要的 这些你是要看懂 包括如何实现long term memory 也包括每个agent和每个SUB agent SUB agent如何实现他们的long term memory 如何实现 Multi agent

就是一个agent一个一个工具里面 它在TUI里面 它可以帮你管理Multi agent 帮管理多个SUB agent 那么它是如何实现 这些agent如何调度 如何去读取它的状态 如何去看它们的工作的环境 如何看他们的输出 如何管理他们 这是一个大问题 第三是如何管理background tasks 就是你后台运行了十几个terminal 或者是多多少个terminal 这些任务

你如何去管理他 们然后是是如何实现skills plugins这些插入式的context 就是如何让你的agent 去正确的去使用它的plugins 或者是正确地调用这些skills 那skills就是一堆Markdown 如何正确去使用 如何去读它的description 如何读取它的title 然后如何在正确的时候 根据title和description去pick up 去选取你正确的skills

这是你这是一个 这是也是他们目前实现的一个机制 这也是一年多前的机制了好吧 如何做好context auto compression 就是你的你的这个上下文过长 然后 你如何去手动去压缩你的上下文 如何去自动压缩你的上下文 这也是一个现代的一个机制 如何更好地控制你的Loop和workflow 对吧它 呃cloud code和Codex

一定不是简单的就直接Loop 无限Loop 或者是无限的就随便给你停掉 如何判断这个loop 如何让agent去判断这个loop 如何让呃 这个loop在正确的时候停掉 这是也是你你要关注的一个问题 然后如何 还有一些小问题 像如何控控制Sandbox环境 比如说我这个一个agent 它要写代码 它要运行一个很大的一个 一个一个程序 但是啊 这个Sandbox如何去启动

比如说我在Docker里面如何去启动 然后运行到什么地步 如何监控它 如何让它停止 如或者如何如何控制它的这些参数 如何控制Sandbox环境 对吧还有如何自由配置MCP 这也是很重要的一点 还有是如 何初步实现可视化和可观测性 哪些应该给用户看 哪些应该你自己判断 哪些千万不能给用户看 哪些用户看了会烦 如何设设计更合适更合理

人机交互体验更好的terminal UI就是TUI 这些东西都是目前当代流行的 这些coding agent 你要认真学习的 这么一个几个基本的方面 我认为这些东西 都值得你去花时间去思考和学习 首先把这些学习好了之后 你才能提出创新 你先把这些东西学好 然后去尝试实实现一下 实现完以后 自己有一个基本的一个轮廓 然后

你才能去提出你自己的新的观点 然后再去实现你自己的创新好吧 对于大部分不在大厂 不做核心agent业务 对AI没有信仰 不在AI start up 甚至很多人写代码写不利索 不会写代码 不会编程 这个时候我就跟你们讲 这是我去年年下半年的时候 我因为我这个事情 我也讲了很多事 很很多很久很久 很多人不听

所以我把它单独写成一个帖子 很多很多人用这方法去去实现了 就是说你就你就用好你的class code 然后建立一个文件夹 你不要就是我之前刚才说的这些 写coding agent对于很多人来说 是非常难的 那么这里有一个简单的办法 简非非常简单的办法 就是你给你的cloud code绑好银行卡 然后你设置一个temp folder 历史文件夹 把所有和任务相关的文档

表格报表 图表报告 Sqlite数据库 access数据库PDF扫描件儿 数据Markdown代码图片之资资料 指令prompt configure 也包括skills 一大堆东西全放在里面 然后你写一个nodejs或者burnjs 或者Python脚本 从terminal里面调用cloud code headless模式 将所有的呃 你要讲明白

你的指令和文件夹默认开启权限 就是用那dangerously skip permission 然后就是把所有的权限都开启 成功存储在一个JSON file里面 失败了也成功 成功了就把 就把你所有的状态和输出 存储在一个JSON file里面 失败了也在这次file里面更新状态 配置好cloud code authentication和MCP之后呢 嗯 等让cloud code自己去authentically 解决整个问题 汇报结果

充好钱给我等 给我等一直给我等 他可能跑 呃可能跑一分钟 也可能跑三年 你这个你这个东西 就等等process结束之后 读取这个上面你存储的这个Jason body 进行下一步 这个东西是非常简单的 这是高中生都能干的活 所以说如果我上面说那些agent开发 或者agent什么之类的 整个的流程你你看不懂 也看不明白

更更不可能自己完全实现一遍 那么用已有的cloud code 我这里也要说 也包括Codex 也包括open code 也包括Kimi code 也包括z code 也包括什么 这个所有的这些都算上 你们都要这么做 这是很重要的一点 这一点能做到的话 那么你就有了一个 你自己可以完全定制化的一个agent 这个比任何的 其他的

无论你在公司里面有一个好的流程 或者是你在做一个ToC的 或者ToB的一个产品 做好你自己的SARS 这个都是很好的一个方式好吧 相信我啊 这是绝大多数不在大厂 不做核心agent的业务 对agent没有信仰 不在startup 这些人这辈子能设计出来的 最简单最强大最可靠最皮实最好用 最省事最方便最稳定最可维护 最容易理解 最省钱

最省时间的宇宙级通用AI agent 如果你能做出比cloud code喂狗屎 和手工function calling更好的设计 那么以以及 比如说你会你 你知道上下文怎么管理 比如说我就做一个哎呀 蔬菜水果销售类的agent 那么你这个小领域里面 你的上下文管理 一定比cloud code要好得多 你这么做 你一定会是更省钱 或者你有自己的LM的省钱小妙招

或者你会更好的管理上下文 你更懂你的业务场景 你比cloud code更知 更知道如何节约cash input 或者你完全懂你在做什么事情 那么你不用听我的建议 你可以直接划过去 否则的话 对于99%的人而言 我这个方法是一个通用的一个呃 灵丹妙药 万能万能药的方法 好吧 否则如果以你的能力范围 你是很难设计出来 比这个a证更好的一个方法 这是跟跟所有的非计算机

不会写代码的这些人 讲的一个最基本的原则 这是我去年跟你们讲价值10万刀 价值30万刀的这么一个一个想法 很多很多人 就感谢我说就是哎呀 其实这是一个 这个行业里的一个 最基本的一个思路 就是cloud code 设计出来就是为了让你这么用的 但是很多人他不懂 所以这个事 我必须用中文 再给你们掰开揉碎的讲一遍 很多人才明白 懂了吧 这个东西只要你不是程序员 你不懂怎么设计agent

你一定要用这个方式来做agent 多花点钱 省你自己的时间 省你自己调试的时间 多多花一点点钱 用用好差一点的模型 其实也花不了多少钱 但这个东西一定是更空 更通用更强大 以及更呃呃泛式 更多的这么一个通用的agent 就是你不要老是说我呃 保险用一保险我从头设计个agent 蔬菜水果销售我设计个agent啊 算账我设计个agent

然后设设计一个 比如说像什么这个啊啊 防盗门我设计个agent 然后什么这个装修材料设计 你不要这么做 agent是一个人 你可以把agent抽象成为一个有人格 有解决能力 办事自动化的这么一个人 那么agent的他自己的设计足够好 以及 你把agent本身的数据喂足的情况下 agent可以解决任何的问题

只要你的模型足够强大 那么你用一个好的agent框架 以及用买你能买的比较好的 能买得起的最好的模型 一用一个通用的agent解决问题 一定比你自己手工 瞎鸡巴搭一个agent要强 99%以上的场景就是这个道理 1%的场景你自己搭一个没有问题 但是对于99%的场景来说 如果你不会编程

又不懂这个 又不懂那个 那我的方法就是我讲的这个方法 就是最好的方法 其实 这也是cloud code希望你们完成的方法 但这个很多人不理解 我今天就掰开揉碎的给你们讲一讲 这个最基础的教程好吧 第五就是说 对于所有对AI感兴趣的非程序员 甚至非工科生 你要明白一点 你要反复使用agent 你要摸清你agent解决问题

解决任务的这个场景下 他的能力的边界 思考AI agent在纷纷繁复杂 真实业务中的使用 的场景这里我还是那几个原则 这里你要翻我跟上一 我跟2025年 2024年跟你们讲的道理完全相同 第一点AI agent不是神 不是超人 不是黑箱 不是玉皇大帝 不能做出超越因果判断

和信息论的东西 什么叫超越因果论和信息论呢 比如说你给我解决一个 这个呃 哥德巴猜想吧 哥德巴猜想它是不能解决的 人是不能解决的 agent他没有那么强的能力 以及没有那么长的reasoning能力 的时候他也很难解决 日 对于百十四亿人来说的解决来说 都很难 对于8十亿的人来说都解决不了 的问题你说agent你给我轻松解决 那不可能的事情 对吧比如说

明天预测一下明天彩票中什么奖 这个东西不是a站来预测 预测明天微软微软是涨5%还是跌10% 这也不不只是agent 连人也预测不到 这个是完全预测不到的事情 对吧比如说你说给我证明一个 离面猜想 我说他妈 全世界最最聪明的人都证明不了 离面猜想 让agent让你自己答出来的 agent这些prompt 这些harness 你让他来证明 离面猜想 这是一个非常愚蠢的事情

那不可能的事情 好吧啊 你预测今年最赚钱的股票 今年跌得最多的股票啊 预测3年后啊 墨西哥的GDP 预测什么 法国 巴黎到底有没有这个制造业公司啊 这个东西都预测不出来 这个不是AJ的能力范围内的东西 这个人是不能预测的 因为这个东西你知道他违反因果论 违反信息论 你人是不能有做出这种

哪怕做出简单的预估 模糊的预估 我认为都是不负责任的 那么AJ呢 肯定会给你一个答案 比如说啊 我觉得墨西哥很好 墨西哥能GDP 墨西哥经济一路长虹 这个东西你信不信呢 你肯定不信 a镇可能就搜索了三五个网页 然后把它汇总一下 就说墨西哥经济一路长虹 问题是它能涨5%还是跌5% 这个东西 它也许也许有一个什么经济危机

就把它墨经济打下来了 也许有一个好的机会 它它就涨上去 你猜不到 所以说a镇不是超人 不是神你自己要明白 人不能解决的问题 以及人不能花时间 没有没有信息 没有因果论 能解决的问题 agent也是一定解决不了 你拿agent当算命 他一定给你个结果啊 我觉得这个都都得涨

或者我觉得这个可以的 实际上那个东西是 不 呃一定是违反因果论的对 吧就跟一个人一样 你你给我说 你问我对吧 你问我这个什么什么能涨多少 我说我大概其能估计估计啊 Google能涨一点啊 这个这个Mete能涨一点啊 拼多多股票能涨一点 那这个东西你说我负责吗 我也负责不了这个事情 对吧哎 真的也是一个道理 他有他能力的边界

他有他对信息来源的边界 有他的认知的边界 在这个情况下 你不能指望他去给你预测和 预测所有的事情 也不能指望它去解决对于人来说 都极其难解决的事情 对吧第二个是 就是我要跟你们讲一点 就是一个任务先有先必须 你如何判断一个agent能不能解决 必须先判断人有没有能力来完成

人有合理的流程和方法论 能够系统地解决 只不过人人是浪费时间 我不愿意浪费时间 但是这方法论和方法 我是我是告诉你了 流程我是告诉你了 那么你才能够让agent自动化 以自动化的形式 以机械的方式 step by step一步一步去完成 前提是一有足够多的上下文 有足够多的数据 文档图表

照片什么视频 然后这个这个图表数据 然后数据库都有 第二是有足够正科学正确的流程 流程方法 你要agent去完全参照你的流程 和方法去执行 那么它是可以完成的 否则的话 没有上下文 我没有知识 我没有信息 我怎么我怎么完成 我完成不了 没有正确的流程 那我自己瞎找一个流程 那我觉得那个东西风险也很大 所以说这 个东西都是这个东西

都是不合不合理的使用它的方法 好吧 AI agent然后这是我自己要跟你们讲 AI agent 最目前来看 我自己认为 能有它自己最适合的一个舒适区 当然很多人说 哎呀好多金融的这个企业 或者金融的保险咨询 都用AI agent来解决大量问题 我说是的 他们是在用 但是他们作为输出的研报

或者是报告 作为一个参考 那么我作为我站在我的角度来说 我告诉你AAA站 最适合最完美的场景是什么 场景我今天要告诉你 首先是封闭环境 就是你不要和外界 有特别特别多的这个接触 和这个交流 对吧哎呀 我去看一看股价吧 我去看一看天气吧 我去看一看 山东的哪个农贸市场里 他这个数 他那个猪肉价格 苹果价格到底多少

你这个东西是很难的 这个东西有各种各样的杂音 和不确定性 你你判断不了 所以说他们当然可以做 但他们不完美 我今天告诉你一个AI AI agent 如果你要做AI agent创业或者研究 我告诉你 他们最适合的 一个完美的应用场景是什么 首先是封闭环境 本地电脑 尤其是3 box隔离的沙箱 这是最好的环境 在封闭环境下可以完整编译

完整运行 完整模拟 完整仿真 可以无限试错 搜索空间巨大 可以并且可以精确验证的场景 就是还是那句话 go driven是我发明的 我要告诉你们一点 就是go driven 它的一个前提是你必须可以 验证可以仿真 可以在本地 就是你是一个非常非常确定的币包 你可以运行 可以编译

可以仿真模拟 同时你还可以验证 这个环境下的一切问题 都是AI agent最适合的 完美的解决工 解决问题的工作环境 它包它包括哪些环境呢 我来跟你们一一讲 第一是编程 计算机我有一个程序 我我我 比如说我写一个算法 我写一个数结构 或者我写一个图 图的一个一个算法 或者我写一个

比如说数据库的一个什么算法 或者我写一个编译器 本地运行 本地测试 本地报错 本地输出结果 或者是 我有一个相对稳定的云的环境 我就是呃 就是在AWS上面有多少个节点 然后我我用这些节点去跑 它们是非常封闭的环境 所以说在这个环境下 编程的输出 编程的测试 编程的报错 编程的反复的尝试 反复的迭代

反复的去更新 这是你自己agent 最适合的一个舒适区 这是第一点 编程第二点 数学就是lean four lean four构建证明 本地编译 本地检查 然后你可以用arctime 或者是读读一些其他人的paper 作为参考 但是数学本身是可以在计算机本地 完整的构建证明

本地写了Infor的代码检查 这也是一个闭包的环境 在这个闭包环境下 数学也是一个完美的场 完美的场景 只不过 目前用lean for去证明这个问题 难度比编程要高得多 但是不代表说不可能 它只是说难度要高太多 以以后的模型 的模型的这些啊 迭代一定会让它有一个提升 第三是电子设计

芯片就是各种Hardware description language 硬件描述语言 所有的芯片的设计 以及也包括PCB的设计 以及包括系统级的一些设计 都可以用AI agent去帮你辅助设计 因为这些东西在本地仿真 已经有非常非常完整的 成熟的过去三四十年的 一个完整的一个商品了

所以你买任何的EA EDA的工具 verlog v h d l spino HDL 或者是其他的这种HDL 或者是什么system verlog 各种硬件描述 芯片电路的描述的这些语言都可以 本地设计 本地synthesis 本地RTL本地仿真 本地Ver verification 本地运行本地仿真本本地验证 这是一个本地完整b包

当然你说这个东西有没有错 我说肯定是有错 因为所有人都明白仿真不是目的 仿真之后一定要留片 一定要现场测试 才能才能知道 你这你这个芯片到底对不对 但是总体来说 电子设计 EDA这个东西是一个非常完整 本地运行的一个b包 它的算法 它的这个 它的整个这套structure都已经完善了 那么本地运行 本地设计

完全是可以拿到本地验证的 复反馈在这个大的前提下 你AEH是一个非常理想的工作环境 对吧 第四是芯片系统级的仿真 嵌入式单片机的仿真 这也是我刚才讲的一点 然后是MATLAB加Simulink对吧 很多人很多计算机的学生 他不用MATLAB 你看之前听 我的一个视频就知道一个 一个清华的一个学生 他他计算机系的学生 他不用MATLAB

我说MATLAB和他们里面的Simulink 每个Toolbox代表比如说机械的 空气的热力学的 流体的量子 量子计算里面所有的东西都有two box 都有这些工具机 工具箱 他们可以把他们抽象成为在CI 或者在MATLAB API 或者是以什么以script形式 以tobox形式去进行真真实的抽象 以各种各样微进去参数啊

什么的形式 进行真实的模拟仿真 那么只要agent在街上 这些参数有MATLAB的运行环境 有simulink 你只要花钱买了注册号 它就可以在本地进行 完整的信号仿真 电子仿真 电力电子的仿真 模拟器仿真 传感器仿真 这个这个信号这个这个各种各样的 这个机械的仿真 流体力学都可以仿真 那么只要它能仿真

就可以让AI来进行真实的这个开发 真实的模拟测试 和真实的探索和研究 这是 这是MATLAB留给人类最最好的礼物 就是 我认为MATLAB是一个非常适合AI进行 你可以看吧 MATLAB它的Toolbox可能有100到200个 每一个Toolbox加上agent 可能都是一个新的领域里面的一个 一个新的一个呃

完全自动化研究的这么一工具 所以说它是一个大宝库 很多人不用MATLAB 说你不要这个样子 MATLAB还是要用的啊 还是要懂的 因为在a站呢 还是那句话 我帮你们筛出来一些最适合的 完美应用场景 我说我给你们做做金融啊 AA证做金融啊 这个市场上股票 那那那不是封闭场景 那是公开场景啊 那你有对手啊 那市场上那么那么乱

几万个人 几几十万个这个人在上面做交易 一一堆量化的做交易 百分之七八十都是量化做交易 你怎么你怎么测试 这东西测不了 物理世界 信号世界 电子世界 流体力学 热力学什么 这些东西他是真实的 在本地能模拟的 也包括什么大气气象 地球物理 也包括什么太阳系宇宙这些 就是那些基本的这些

这些东西它是可以模拟的 有模拟的模型 有模拟的方法 有模拟的MATLAB MATLAB工具箱 或者EDA的工具箱 你就可以真实的用AI agent 去写好他们的function calling 写好他们的文档 让AI agent来帮你去完成 这是一个最大 最大的一个 我我认为是最 我认为是未来 目前未来 AI agent最适合的一些场景和领域

第五就是c a C a d 机械设计 也包括什么UI设计 UI设计我我 之后我会单独 我我单独出一期视频再讲吧 下一集我也给你们讲 就是今今天给你们讲机械设计 CAD包括auto CAD 也包括其他的一些CAD 用用AI引擎写list来操作你的Autocad 就是Autocad 用它Autocad来操作你的Autocad 这样的话呢 机械设计这一环

CAD是一个完整的一个设计 模拟仿真的这么一个环境 那么这个环境里面呢 你也可以完全的在里面 去完成你的这种你所需要的设计 这个也毫无疑问 也包括g code 什么数控机床 也包括PLC 也包括大型的控制系统 大型的工业系统 都可以用这这种方式来去设计 因为AI agent最适合的场景 还是那句话 一封闭环境2完整运行 完整编译

完整模拟 完整仿真3无限试错 操作空间巨大4可以精确验证 只要你满满足这一点 我给你筛下来的这几个场景 都是可以用AI agent来去 带来行业爆发 我我这里每一条都值 我我认为 我这里每一条都值1,000万美元啊 我我这里每一条 可能都有很多公司在在做 1,000万美 1,000万美元的级别的事情 甚至是比如说像数学这个

EXOS什么之类 或者就是EXOM这公司 他已经融了一个亿美元了 就是这很多公司在在做这个事情 所以说我跟你讲 这些都是给你们的饭碗 给你们的金饭碗 你们要愿意 传统工科这些行业里面 你们愿意研究 就MATLAB里面一个一个工具箱 挑一个一个筛 就点菜一样 哦要这个 我要吃那个 我要点那个 你尝试把它这些工具箱里面的 这个文档

里面的参数抽出来 让AA阵在里面去运行 你看一看它的结果会是怎么样的 它一定会告诉你这个东西 因为它有只要搜索空间巨大 让a h跑10个小时 它一定能帮你解决一些 你你能你想解决 或者你未来想解决的问题 这个毫无疑问好吧 AI h未来的优势和趋势 这是另一个大的话题 这个话题 我会在下一期视频跟你们详细的讲 这里期我跟你们简单讲一讲

首先coding的场景 它适合AI agent AI agent但是它不适合Multi agent Multi agent比如说我有1,000个agent 我希望它能至少实现 100倍的效率提升 就是我希望我用10倍的 我用1,000倍的成本去实现100倍 哪怕是10倍的提升 我认为都是有有价值的 因为1,000倍的成本

它其实就是钱的问题 但是我是我提升10倍的性能的提升 10倍的效率提升 它不是钱能解决的问题 所以说Multi agent一定要理解 很多问题是我用1,000倍的agent 我解决不了一倍的提升 那那这个东西就没有意义了 我的我跟你们讲 就是TOKEN一定会越来越便宜 Multi agent的并发度一定越来越高 TOKEN一定越来越快 Lolam的模型一定越来越聪明 在这个大前提的前

在这个大前提下 Multi agent是你能相信的 唯一的一个post training 唯一的一个 这个agents scale scaling的 这么一个一个一个一个方式 所以说如果你能用1,000倍的a阵 实现10-100倍的提升 我认为它是一笔极佳极佳的投资 事实上你是做不到这一点 事实上就是哪怕是提升三五倍 我认为都是极佳投资 但是首先我要给你们讲

不适合的场景 编程它就不是一个适合Multi agent 七手八脚的这么一个场景 首先七手八脚文件代码 merge代码这个东 西非常非常危险 需要很好的管理 我觉得coding这个 目前用很多很多agent 10个20个agent的去做 也包括我在去年就跟你们讲过 我设计的full self coding的那个 那个项目很多很多星星 但是我跟你讲这个项目

以及目前很多YC 他们在投的 以及很多人在尝试的这么一些东西 都不太适合 为什么coding更适合一个人单道趟一 一次走到黑这么一个方方式方法 而如果1,000个人 给一个项目去贡献代码 这个就容易产生code management 或者software engineering management 的一些问题 就是软件工程的管理 项目的管理 代码的管理

都会出现大的问题 七手八脚给你贡献代码 最后一定会一团糟 所以说Multi agent 它不太适合于编程问题 但是我没有说AI engine不适合 我只说Multi engine不适合 好吧 第二是多个Multi engine 通过不同角色的上下文 按照流程顺序来完成工作 并且这工作是顺序串联 sequentially完成的

那么其实它的效率小于单个AI engine 持续工作 就是当年那个叫matter GPT这个 那个项目就是 他的做法 是把一个大的团队抽象成几个角色 对吧 matter GPT他当年他的做法是什么呢 就是我先模拟产品经理 然后架构师程序员 然后code review 然后q a test 然后再回到程序员再 他这个做法其实小于单个action 持续工作 因为你是等于说

你把一个多个action的过家家 但是多个 action他其实是串联的工作 你先完成 完成完之后交给第二个 第二个完成交给第三个 第三个完成交给第四个 sequential了 一个一个 他是当时你看他那个 那个paper里边的那个 那个设计 那个论文里面 一个一个一个一个一个一个这么走 那它的效率是很低的 你串行完成一定就很低 你你还不如一个进程来做 你可以说我为了上下文的干净 我为了把它隔离开 一个一个串行

但它其实做不到 multi-agent就是并发级别的 大规模的这种效率提升 它是做不到这一点的 所以说我认为 这个东西也是没有特别大的价值 第三也包括 就是公司架构模拟 或者团队架构模拟 七嘴八舌 没有产出对吧 像之前很火的 GitLab上爆火的agent agency 也包括什么 这个open cloud里面的有一些人的设计

也包括现在的腾讯的work body也包括 大量的crow AI也包括 就是这个东西不是今天出现 就是两两年多前 三年前 那那些像那个他叫那个叫什么什么 这个就是Multi agent communication 那些protocol 那个 之后就出现一大堆crew AI那些东西 公司架构乱七八糟 七嘴八舌 你让这些agent呢 去一个这个agent跟他说一句 他跟他说一句

他跟他说一句 他跟他说一句 他跟他说一句 他又跟他说一句 他又又说回来了 这个架构就跟那个胡闹厨房一样 就分手厨房一样 你最后没有产出啊你 你闹我一句 我我我说你一句 谁来决定谁来管理 没有管理 这个东西就就就非常非常麻烦 这种实现最后实现出来 一定是一团糟 一团乱麻 这个是很多很多人

过去两年三年的时间 很多很多设计Multi agent的人 踩了一个大坑 只要是公司架构模拟啊 软件开发项目模拟什么什么 模拟这个模拟那个模拟 架构一团糟 你跟我汇报 我跟他说一句 他跟他他跟他写作 他跟他写作一定会没有产出 这是这个 是这个是目前过目前来看 过去两三年 大家公认踩的一个超级大天坑

这种东西像腾讯的work body 一些包括好多 我知道现在好多飞书啊 也也在可能在做这种东西 千万不要用这种东西 你可还是那句话 我说好不好 可能不太有价值 你要用一用 看一看这个东西 能不能真正的 以Multi agent的这个尺度 来提高它的效率 我认为是没有的 或者是你要认真找场景 可能有那么一两个场景好一些

比如说就是扮演过家家 扮演联合国 或者是你研做一做管理学的研究 我看一看你们七嘴八舌 到底能弹出来什么东西 我看一看你们的谁是大傻逼 这个东西是可以做的 但你要把这种东西 放到生产力环境里面去做 那那不好意思 这个东西是是是有大问题的好吧 我认为Multi agent是值得的一个工 工作 嗯

一个是大规模的并行 并行任务 就是说如果你的组织架构很干净 一个人管两个人 两个人每个人管四五个人 就是完全的大 规模的并行任务 比如说先把任务map给多个agent 然后再reduce成一个汇总 一个任务 map reduce这东西 是我读书的时候Google就发的论文啊 把一个任务拆分 然后怎么样再reduce起来 如果你用Multi agent 那么 你可以做一个超级大规模的网页

搜索啊爬虫啊 文献啊信息来源 做research啊 大规大规模的研究 大规模的这个调研 大规模的这种survey 大规模的爬虫 大规模的数据清洗 并行客服 大规模审核 都可以这个是Multi agent 最Multi agent最适合的场景 因为它足够并行 足够独立拆分 那么你只要汇总 一层一层汇总 这个架构是很干净的 第二是做好流程控制和管理的 Multi agent go driven 这个东西呢

我在GitHub上 已经开源了好长好长时间了 1,000多个star 你们可以再去看 这期视频呢 就先讲到这里 下一期视频 我会跟大家着重的讲AI agent里面 如何用管理学的方式 来做好真正合理的Multi agent的这种 这种管理 好吧今天就先讲到这里 有问题的可以在评论区先问好吧

Loading...

Loading video analysis...