Context Engineering：概念与技术实现深度解析

By 马克的技术工作坊

Summary

Topics Covered

Context Window容量差异巨大
杂乱输入导致模型混淆
Context Engineering优化输入
动态选择精准检索相关内容
隔离Context提升多Agent效率

Full Transcript

Context Engineering是最近AI领域的一个新的概念但Context是什么 Context Engineering又是什么它解决了什么问题怎么解决这些问题的很多人都不是特别清楚别担心这个视频会一一给你解答单纯从外部来看大模型就像一个函数你给它输入它就会给你输出不过大模型的输入是有大小限制的这个限制叫做上下文窗口

对应的英文为Context Window 这里面的Context指的就是模型输入比如用户问题背景信息相关资料可用工具列表工具执行结果和历史对话等等模型把这些输入作为上下文并基于这些内容来生成答案而Context Window呢则是指模型的输入中最多能包含多少个token token可以理解为文本被拆分成的最小单位

可能是一个字一个词或者是一个标点符号一个token大概相当于0.75个单词或者是1.5个汉字比如说 Gemini 2.5 Pro的Context Window是100万意思是它最多能处理100万个token的输入一旦超过这个限制前面的内容会被丢弃只保留最后的100万个token 100万个token呢其实是一个相当大的容量了接近7本书的长度了

也就是说像Gemini 2.5 Pro这样的模型可以一次性地读完7本书这个容量已经是非常惊人了甚至让人觉得既然Context Window这么大那我们是不是就可以把所有资料都丢进去让模型自己去理解举个具体点的例子假设你想做一个智能客服你希望这个智能客服可以回答用户提出的各种关于你们公司产品的问题这个智能客服的核心就是一个大模型大模型虽然很强

但是直接问它的话它只能回答不知道毕竟它又没有你们公司产品的信息不过你一想没关系我们不是有产品使用手册吗直接丢给大模型好了让大模型根据手册回答问题不管产品手册有几十页还是几百页甚至几千页我们都直接扔给模型好了不用管产品手册里面哪些内容与用户问题相关哪些内容与用户问题无关

反正Context Window这么大全部丢给模型就行了肯定是没问题的答案肯定能出来这对不对呢不对事实并没有那么简单在实际使用中我们依然会遇到很多限制想要让模型稳定高效准确地输出内容我们必须考虑三个非常现实的问题第一大多数模型的Context Window 其实非常有限 Gemini 2.5 Pro的100万Context Window

算是很大的了大部分的模型其实都没有这么大的Context Window 让我们看一下主流模型的Context Window大小 Gemini 2.5 Pro我们之前聊过了是100万而最近出的GPT-5的Context Window 是40万 DeepSeek V3是12.8万 Claude 4的Context Window是20万这些还算是一些相当不错的模型了很多时候为了节省成本

我们可能还会使用一些小模型它们的Context Window可能就只有几万连一个产品使用手册也装不下这个就是第一个问题了我们再回来看其他的第二点输入太杂乱会影响模型理解即使你所使用的模型有着很大的Context Window 即使给模型的输入量没有超过Context Window的上限你也最好不要把所有相关资料不加筛选

全部都扔给模型因为如果你不加筛选的话给模型的输入内容可能就会杂乱冗余矛盾模型这个时候可能就会混淆重点输出含糊其辞的回答与其把所有信息都塞进去不如经过精心的设计和组织确保模型看到的是准确有结构重点突出的内容第三输入越多成本越高

大语言模型的调用成本基本上都是按照token来计费的 token的数量越多消耗就会越大如果我们不加控制地塞入大量上下文内容即使效果还行也可能会带来不必要的开销尤其是在产品化和大规模使用时优化输入就是优化成本所以我们看到直接把所有资料都发给大模型的方案是行不通的这里存在很多的问题那我们该如何解决它们呢

这就引出Context Engineering了 Context Engineering翻译成中文就是上下文工程从字面上来看 Context Engineering似乎就是针对Context所做的一些技术回想下Context的含义 Context代表给模型的输入那Context Engineering的含义就是对模型输入做优化了对就是这个意思简单来说 Context Engineering关注的不是怎么训练模型

而是怎么精心设计给模型的输入内容让模型在有限的Context Window里面尽可能理解得更准答得更好花得更少它的核心思想是不改变模型结构只改变模型看到什么其实吧 Context这个概念一直都存在但是Context Engineering这个词却是最近一段时间才火起来的这主要是因为以下两点原因第一现在的模型已经足够强大了

跟一两年前的模型相比现在的模型强大的不止一点半点对于现在的模型来说你只要给到它足够精细的要求给出它足够完整的相关资料模型就可以给出非常准确有用的回答在大部分情况下如果模型的回答不能够让你满意这并不是因为模型不够强而是因为你没有给到模型足够清晰和足够完整的信息

而这点也正是Context Engineering要解决的问题第二 Agent的兴起 Agent是一种把大模型和工具结合起来让模型能够独立感知环境影响环境从而解决用户问题的一项技术我之前做过Agent的相关科普视频不了解Agent的同学可以看一下 Agent的运行涉及到模型对工具的使用所以可用工具信息工具执行结果等等一系列的内容

都会放到模型输入里面使用多少次工具就会有多少个工具执行结果 Agent运行时间长了这些工具执行结果就会占满整个Context Window 从而影响到模型后续的回答效果这也就是为什么Agent兴起了之后 Context Engineering的话题也就随之火了起来因为Context的管理效果会直接影响到Agent的执行结果在了解了Context Engineering兴起的原因之后接下来我们来看它的具体实现方法

总的来说 Context Engineering并不是某项单一的技术而是由多种技术组成的方法体系这里我借鉴了LangChain的设计框架把Context Engineering这门技术体系划分为四类分别是保存Context 选择Context 压缩Context和隔离Context 下面我们来一一说明首先是保存Context 保存Context就是说我们把Context做个筛选

总结并且找个地方保存起来比如说是内存硬盘之类的地方在模型需要的时候再发给模型这里一个比较典型的例子就是ChatGPT的记忆功能比如我可能就在某次聊天的过程中告诉他我的名字是马克我有一个频道叫做马克的技术工作坊在这个频道里面我分享过关于Agent RAG MCP A2A等相关的内容

注意到这个Updated saved memory了吗这就代表ChatGPT把这段内容存入到它的记忆库里面去了我们可以打开记忆库来证实这一点这个就是ChatGPT的记忆库了可以看到它刚才保存好的记忆就放在它的记忆库中这个保存的动作是Context Engineering的第一步它解决了信息持久化的问题但光存下来还不够 ChatGPT的记忆库是可以存放很多条记录的

那在未来的对话中 ChatGPT是如何从这个庞大的记忆库里面精准地找到它所需要的信息呢这就引出了我们下一个也就是最核心的技术选择Context 所谓选择Context 就是从海量的信息中选择出一部分与用户问题最为相关的内容并且把它们放在模型的Context里面一个好的选择策略是整个系统高效准确运行的保障我个人把选择策略分为两大类

静态选择和动态选择我们先看最简单的静态选择静态选择就是把一些永远重要必须要遵守的信息在每一次请求时都全部放到Context里面它就像是给AI焊在脑子里的系统指令或者是核心原则比如Cursor的rules文件 Claude Code的CLAUDE.md文件

Claude Code的CLAUDE.md文件这些文件指定了当前项目的一些信息编码时需要遵守的一些规范等等这些信息至关重要无论用户问什么这些信息都必须在场以确保AI的行为符合预期因此对于这类短小但至关重要的信息最有效的策略就是全都要只要确保它们加起来不会撑爆Context Window就行说完了静态选择

接下来我们看一下更强大也更为常见的动态选择动态选择是指选择与用户问题最为相关的内容并且把它放入到Context中它不是把所有的东西都塞进去而是像一个聪明的图书管理员为你精准地找到需要的那几页比如ChatGPT从记忆库中挑选与用户问题最为相关的记忆这就是一种动态选择再比如我们从包含数十个

甚至数百个工具中挑选与用户问题最为相关的三个工具扔到模型的Context中这也是一种动态选择动态选择有很多种实现方式其中最为有名的便是RAG 我之前讲过RAG的实现原理不清楚的小伙伴可自行看下讲完了选择Context 下面我们再聊下压缩Context Agent运行过程中会在Context里积累大量的历史消息一般来说这些历史消息中最占空间的

便是模型的输出文本和工具的执行结果如果不做处理的话这些历史消息便会迅速挤满 Context的全部空间从而影响模型的后续回答效果一个常见的处理方法就是压缩历史消息举个具体的例子大家都知道Claude Code 它是一个用于写代码的Agent 在它运行的过程中它可能会读取很多的代码内容同时也会写入很多代码内容然后Claude可能还会输出一些思考和结论

它们都会存放在Context中如果Claude Code不对这些内容做一些处理的话那么它的Context Window 很快就会被各种代码信息所挤爆还好Claude Code 早就意识到了这个问题它也确实有一些处理措施当Context Window的使用量超过95%的时候 Claude Code便会运行一种叫做 auto-compact的程序对以往的Context做个压缩

其实也就是总结下之前的内容然后把原来的内容扔掉在总结后 Context Window的使用量就会降下来用户甚至还可以在Claude.md里面

用户甚至还可以在Claude.md里面指定压缩方案比如我们看下Claude Code的官方文档它这里举的例子就是让Claude Code 压缩时重点保留测试输出和代码改动方面的内容那说完了压缩Context 我们下面就来看看最后一个策略隔离Context 隔离Context的意思就是说不同模块之间的Context 是互相隔离的互不干扰这通常发生在Multi-Agent系统里面

我们可以用Anthropic的这篇文章来举例它讲述了Anthropic是怎么构建它们的Multi-Agent研究系统的文章内容我们就不细看了我来给大家画个图讲一下它的大致架构在文章中Anthropic提到系统内部有一个Lead Agent 他负责做任务下发和归纳总结你可以把它想象为整个系统的总指挥官用户的请求会先打到这个Lead Agent里面在接受到用户请求之后

Lead Agent便会把用户的问题下发到其他的Agent系统里 Anthropic称这些Agent为subagent 比如Lead Agent会先发起一个负责搜索PDF的subagent 拿到PDF的搜索结果再去执行一个负责搜索网络的subagent 拿到网络的搜索结果然后再去执行一个负责搜索图片的subagent 在拿到所有subagent结果后

Lead Agent就会产出一份最终的报告给用户看整个流程也就随之结束了这些subagent系统有着自己独立的工具独立的运行历史独立的记忆体系也就是说这几个subagent的Context 是互相隔离的互不影响这个就是隔离Context的一个非常典型的例子不同的系统拥有不同的Context 职责清晰彼此之间互不干扰

Anthropic构建的Multi-Agent研究系统大致就是这个样子的了除此之外 Claude Code里面也有一个subagent的概念跟我们之前讲的Multi-Agent研究系统里面的subagent有点像但并不完全一样在Claude Code中每个subagent也都有着自己独立的Context 互相隔离感兴趣的同学可以自己用下试试鉴于时间的关系我这里就不赘述了 Context Engineering大致就介绍到这里了

稍微回顾下我们今天学习到的一些知识 Context代表模型的输入 Context Window 它代表模型输入的容量上限一般以token的数量为单位来表示比如Gemini 2.5 Pro的Context Window就是100万个token Context Engineering 它指的是如何精心设计给模型的输入内容让模型在有限的Context Window里面

尽可能理解得更准答得更好花得更少 Context Engineering的四大实现角度分别是保存Context 选择Context 压缩Context 和隔离Context 最后值得一提的是 Context Engineering并不是某个特定而具体的技术而是某一类技术的统称它所包含的技术可以说是五花八门我们这里也仅仅是管中窥豹举了几个相关的例子

如果有观众想详细了解Context Engineering的话我建议看看以下几篇文章第一篇LangChain的Context Engineering 这篇文章系统地讲述了Context Engineering的概念和方法通读一遍可以学到很多东西我这个视频也借鉴了这篇文章中的不少内容第二篇Cognition的Dont Build Multi Agents 这个标题乍一看好像在反驳我前面讲到的Multi-Agent系统其实不然

如果你仔细看一下这篇文章的话你就会发现它其实并没有反驳Multi-Agent系统它只是认为多个Agent并行执行的方法是行不通的如果一定要做Multi-Agent系统的话那各个Agent的运行也必须要串联进行并且要做好Context Engineering 确保给模型的输入简洁明了所以看完这篇文章之后你可以同时学到Agent的构建策略

与Context Engineering两方面的内容今天的视频就到此结束了别忘了点赞关注我们下次再见拜拜 ```

Loading...

Loading video analysis...