AI agent 开发千万别越努力，越心酸！【AI agent 搭建实操指南第二弹】

By 数字黑魔法

Summary

## Key takeaways - **外部输入需加审阅流程**: agent流程正确但结果错，往往因工具返回错误信息，如搜索flux2时排名第一是导流网站而非官网，因此必须引入审阅流程，不能假设工具信息一定正确。 [01:09], [01:42] - **记忆系统存中间状态bug**: 后端只存用户输入和agent输出，未存工具调用中间状态，导致不刷新界面第二轮带旧状态，刷新后丢失，输入不一致输出不同，违反行为一致原则。 [03:04], [03:49] - **顶层规划者上下文动态瘦身**: 顶层规划者上下文难瘦身，因需全局分配任务但信息庞大，策略是先让其判断用户任务类型，再动态检索相关规则和工具，如用RAG或code as tool，而非直接用大模型判断否则无节省。 [07:07], [08:34] - **对话agent不擅长深度长链**: 对话式agent工具松散，擅长串联几工具但不擅需严密逻辑的长链任务，因缺乏稳定编排，每轮即兴发挥，无法稳定输出。 [09:38], [10:00] - **引入skill提供稳定方法论**: skill是一套固定执行模板，如做PPT的步骤流程，提供给agent后可将松散工具映射到稳定结构，解决深度拓展，让通用agent有稳定编排而非每次重想。 [10:56], [11:17]

Topics Covered

工具输出必须审阅
内存策略决定信息可见
顶层规划动态瘦身上下文
Skill补齐深度稳定编排

Full Transcript

Hello大家好,上期视频收到了很多积极的反馈,非常感谢大家的支持。

这次其实我想接着上一期的视频继续往下讲,随着AIAgent开发的深入,还有哪些坑是你可能遇到的。

我们依旧从真实的工程实践出发,拆解这些坑是怎么一步一步走到大家现在在论文或者技术博客里看到的那些成熟方案的。

欢迎大家收看我们今天新一期的视频。

在上一期的视频里面,我们其实提到了三件事情。

首先我们要做上下文的隔离,其次我们会有一个记忆系统 ,最后我们需要有一个log的系统,能够看到你agent 每一步是怎么运行的。

那到这个地方,我们就已经有了一个能跑的agent了 ,我们可以去做一些实际的操作。

那当然,agent不是所有时候都能给我们很好的结果,当我们去查看那些坏的结果,你会发现一些情况, 就是它很有可能流程是对的 ,但是结果是错的。

你会发现有些东西好像不是这个agent自己能控制的 ,尤其是外部输入。

举一个实际的例子,我们做的这个AI视频剪辑agent, 我曾经想做一个flux2相关的视频,然后这个AIagent 会去搜索关于flux2相关的资料。

结果在搜索的时候,排名第一的这个搜索内容并不是flux2的官方网站,而是一个买下了 flux2这个域名用来做导流的网站。

这个时候你并不能说agent的流程是错的 ,它的确做了正确的选择,只不过工具返回的输入本身就是错的 ,你拿这个错误的信息放到后面的流程里,你结果肯定是错的。

这里就引出了在很多文章里面都会提到的概念,review,一个审阅的流程,道理也很简单,就是你通过工具拿到的信息,我们不能假设这个信息一定是对的。

所以在我们去制作这个agent工具的时候,我们需要思考,这个东西它到底是不是一个光秃秃的 APIcall,它是否需要在后面引入一个这种review的一个流程。

第一步抓取这个信息,第二步就审阅这个信息,我们还要去考虑是否需要重视,或者说直接给一个带有总结的错误提示。

至于你是在后面新加一个APIcall 去做审阅,还是用本身的 agent的能力去做审阅,其实都不太重要,重要的是你必须要有这样一个审阅的流程。

所以我们会看到在一些文章里面会提到review的这个过程它不是一个可选项而是 agent开发里面必须要考虑到的机制然后在上一期视频里我们其实就简单的把记忆系统分成了内存和外存在实际的开发过程这个记忆系统可能还是比较复杂的这里拿我自己用AISDK遇到的一个bug给大家我用的是Versailles 官方一个chatbot的

开源项目场景是这个就是用户首先在前端发一个消息给到后端后端agent收到了之后,我们就开始进行一个执行。

中间会有一些执行的状态,比如说调用了什么工具,工具的输入输出是什么,然后agent 是怎么进行一个思考。

这些信息都会返回给前端用来更新 UI,让用户看到agent执行的过程。

但是在存储的时候,后端只把用户的输入和agent最终的输出结果存到了数据库里面。

中间工具的调用并没有存。

在单轮对话里面其实没有什么太大的影响,但是问题出现在第二轮对话,如果用户他不刷新这个界面,前端还保留着上一轮的这些工具调用的中间状态,第二轮请求发送到后端的时候呢 ,会把这些中间状态一起发送给后端,但是如果用户刷新了这个界面,这些中间状态并没有存到数据库里面,所以第二轮的

请求就只剩下了第一轮的用户输入,第一轮的 agent的输出和第二轮的用户输入同样的任务刷新和不刷新agent得到的输入不一样它的输出也有可能会不一这显然是一个bug我们最基本的原则就是不管你刷新前还是刷新后其实它的行为都应该是一致的但是这方面题就来了中间的这些工具调用的

状态到底应不应该在第二轮这种传回给agent你会发现其实网上的说法是矛盾的有的文章说这应该传因为这是一系列的对话,你第二轮的对话需要有第一轮所有的场景,更好的判断,也有人说不应该传 ,因为你需要做上下文的隔离,举个例子,你如果这个地方有个

subagent,那在第二轮对话的时候,你这个顶层的规划者,应该看到上一轮对话里面具体的执行者是怎么样进行操作的 ,他应该把这些工具的调用给屏蔽掉,他应该只看最后的结果,所以这个地方真正的信息不是说内存或者说外存这么简单, 而是我们在返回信息给到agent的

时候,我们应该有一个策略来决定什么信息应该被看到。

那我解决这个问题的策略其实非常的简单,我首先做的一件事情就是我把所有的中间状态都不传回去,也就是不管刷新还是不刷新,我就只传用户的输入和agent的输出。

如果在这种情况下,agent 不能够继续去完成任务了 ,那就说明有些重要的信息丢失了。

你接下来要做的事情并不是说把所有的这个中间状态全部都存回去,而是你去看这个信息丢失到底是在哪一步发生的 ,那这一步关键的信息需要被保留下来。

所以这个时候你就可以决定, 那哪些信息是一定要存在内存的 ,哪些信息是一定要存在外存的。

这个也是我们上一期视频里面强调的为什么log系统非常重要你只有有一个很强大的 log系你才能够清楚的看到agent每一步的信息是怎么样走才能够去判断哪些信息是关键哪些信息是噪声当我们继续做agent开发的时候我们会在上下文隔离这个碰到一个新的问题当我们说上下文隔离的

时候我们会发现subagent 就是这些执行者他们其实已经隔离的很好了它们收到都是有效的信息,但是对于顶层的规划者,它的上下文好像很难瘦身,因为顶层规划者要先拿到用户的输入,其次他要冲观全局去分配谁做什么, 谁负责哪一步,然后再把这些必要的信息传给不同的执行者。

在这一套系统里面,似乎顶层的规划者必须看到几乎所有的外部信息,但问题是,这个外部信息可能非常大,或者说可能持续性的增大。

就比如说我们的这个视频AIAgent, 我们最开始只让它解决一个小的问题,比如说剪视频的这种能力。

那这个问题完成的不错之后呢 ,我就希望,你能不能再给我剪另外一种风格,你能不能再做个拼接的任务,你能不能再做一个生成的任务,你能不能再做一个规划的任务。

于是我就不得不去准备更多的规则,更多的工具。

每一套规则和工具其实背后对应的就是更长的上下文。

agent解决的问题越多,它的上下文就肯定会越长。

那应该怎么样对这样一个上下文进行瘦身?其实用户每一次来的

进行瘦身?其实用户每一次来的任务,他可能并不需要用到所有的工具。

他的这个任务很有可能是一个单一类型。

比如说用户想要做一个剪辑的工作,这个时候上下文它不仅仅读了剪辑的工具和剪辑的流程,它还读了其他工具和其他的流程。

所以瘦身的核心策略就是,不要先把所有的上下文都塞给这个顶层的规划者,先让他判断用户想要干嘛,再通过用户的判断去动态的拿这类任务可能需要用到哪些规则, 这类任务可能需要用到哪些工具。

这里主流就是两种方法,第一种方法是RAG,就是我拿到用户的输入,先判断它大概是个什么任务, 然后它大概有哪些关键词,通过这样的关键词去检索上下文里面可能相关的那部分信息,拿出来。

第二种方法叫做codeastool ,就是通过写代码的方式,在这个上下文本里面把相关的内容找出来。

比如说用户想要剪辑, 那我这方就写一个简单的 graph,Ninux的这样的一个命令,然后把跟剪辑相关的东西给它给搜出来,或者说写一个更复杂的 Python文本,一个更精准的筛选。

这两种方法的核心解决的都是同一个问题。

在不直接看到全部上下文的情况下,怎么样把用户想要做的事情和agent需要的上下文给联合起来。

这个地方做一个小测验。

我如果不用上面那两种方式, 我在这方直接用一个代言模型的工具,把用户的输入接进来,让这个代言模型去判断,它应该去找哪部分的上下文,这件事情可不可以。

这个地方是不行的 ,因为大约模型想去找相对应的上下文,它必须得读全部的上下文。

你在这方引入一个大约模型,你根本就没有去节省上下文长度这件事情。

在上面所有的问题解决之后呢 ,AI在广度的问题上其实已经解决的差不多了。

如果你有用户在用这个agent ,它一定会有要求能不能让这个AIagent解决一些深度的问题。

我们在上期视频里面其实提到过 ,这个对话式agent有一个天然的特性。

它不是一个确定性的长链流程,即使是一个看起来很长的任务,它本质上也是把它拆成了一小步一小步来执行的。

举个例子,我希望我的 AIAgent能够帮我生成一个视频元素,那我这个AIAgent第一步是去搜集素材,然后搜集素材之后需要我的反馈,然后搜集完素材以后进行设计,进行设计的时候也需要我的反馈,然后最终进行一个执行,执行的时候也需要我的反馈。

它其实是把这样一个场内任务拆成了可执行的小步,每一步可用调用一个或者几个工具,每一步之间会有用户参与, 帮助agent决定下一步往哪走。

随着agent能力越来越强,用户的期待也会发生变化,能不能中间少参加一点,能不能一次性把这件事情做完。

这里就会出现一个问题,我们构建的这种对话式的 agent,它的工具本身是松散的 ,把一两个或者三四个工具串起来,可能做的还不错,但是一旦涉及到需要非常强方法论,非常严密逻辑的这种长练任务的时候,他就不是那么擅长,因为他不够确定,这个不是模型不够聪明,说agent的组织架构决定了

,他就是自己去编排流程,没有办法稳定的得到一套统一的流程,当用户希望他做的更深的时候,其实这个深代表的是按照一套固定的方法论来执行,在期待的是一种稳定的编排,而不是每一次都让 agent去即兴发挥。

那这种稳定的编排就跟这个N8N或者Diffie 这种workflow非常的相似,一条很长的链,它可以跑得很深很稳定。

那问题来了 ,怎么能够让agent从这种松散的工具调用,拓展到workflow这种级别的执行?这里其实就对应到一个新的

执行?这里其实就对应到一个新的概念,也是之前大家在评论区里面讨论过的概念,agentskill,Skill 你可以把它理解成为解决一类问题的方法论或者说一套固定的执行模板比如说做一个PPT 第一步第二步第三步第四步这个流程可能会很复杂但是你按照这个流程做它就能得到最终的

PP当你把这样一条类似于长链的方法论提供给AIAgent的时候Agent就可以把原来相对松散的工具映射到这套固定的结构可以得到一个相对稳定的输出所以skill补齐的其实不是subagent这种上下文隔离的也不是这种tool的调用它其实解决的

是让agent有一套稳定的编排不需要每一次都自己重新去想一次了解了这个之后我们就能很好的判什么时候会需要agent的 skill如果一个任务用n8n 这种workflow做得很好然后你希望把这种workflow的能力引入到你的 AIagent里面那你就需要用到skill的这种形式。

如果你本身就在做一个非常垂直的 agent,这个领域里面你已经做了非常成熟的方法论和编排,那你不一定需要再额外的引入skill这种概念了。

所以skill更多的解决的是通用的这个agent,怎么样能够在深度上去进行一个拓展。

虽然我们上面说了这么多,但是AIagent开发的核心概念并没有发生变化。

当我们想要给AIAgent 去加一套比较复杂的架构的时候呢 ,我们一定要去判断, 那这个AIAgent它是否真正的遇到了这样的一个问题,它的开发流程永远都是先发现问题,再解决问题啊。

那以上就是这期视频的全部内容,如果你觉得我们的视频做的还不错的话欢迎点赞收藏转发订阅评论我们的频道,对我们来说非常的重要,感谢你的收看,祝

Loading...

Loading video analysis...