LongCut logo

智能体社交革命:AI Agent是怎么来到你我身边的?

By 硅谷101

Summary

Topics Covered

  • AI不只是工具 而是可以参与世界的“第一类公民”
  • Model Router:让不同模型各司其职的架构革命
  • Social Brain:AI记忆正在演化成认知网络
  • MCP、A2A、ACP:Agent互联网的协议三层架构
  • Self Evolving:Agent会像人一样成长出性格

Full Transcript

小伙伴们 你们电脑里的“小龙虾”还好吗 过去这几个月 OpenClaw可以说是引发了一次 全民级的装机热潮 不过热度过去之后我们发现 大部分人都还是一样的使用路径 学习、安装、折腾几天 然后 卸载 总之 它好像很强 但是又好像没有真正改变什么 不过 如果你只把OpenClaw当成是一个 “好不好用的工具”

那可能就错过了它真正重要的地方 OpenClaw带来的影响其实不仅在应用层 而是在认知层面 第一次让更多的普通人开始意识到 AI不只是一个被调用的工具 而是一个可以持续运行、可以主动行动 甚至可以“参与世界”的存在 这其实是一个非常关键的分水岭 它意味着我们正从“人使用AI”走向一个

“人与AI Agent共存”的全新阶段 而当Agent真正进入人类世界 开始彼此交流协作 甚至开始“替人社交”的时候 一个新的概念最近就开始 被越来越频繁地提到 那就是Agentic Social Network 智能体社交网络 Hello 大家好 欢迎收看《硅谷101》 我是陈茜 那么究竟什么是 Agentic Social Network(智能体社交网络) Agent社交的整个技术变革是如何实现的

包括模型调用 Memory记忆层和各种Agent协议 是如何发展的 有哪些里程碑的突破 而要达成Agent的社交网络 长时陪伴、主动能力和自进化能力 包括现在硅谷最近很火的Skills(技能) 和Harness Engineering(驾驭工程) 又是如何帮助Agent 打造下一个智能形态的范式进化 这期视频 我们就来聊聊

Openclaw背后的Agent技术演变革命 在我们现在的社交网络里 无论是微信、Facebook、WhatsApp 还是Twitter 社交的基本单位始终是人 你发内容、你回复消息、你建立关系 所有行为的起点和终点都是我们自己 但是在Agentic Social Network (智能体社交网络)当中 这个前提开始发生了变化 社交的基本单位

从“人”变成了“人+Agent” 你的Agent可以帮你回复信息、参与讨论 甚至在你不在线的时候 7*24小时地存在在这个网络当中 而在网络的那一头 也很有可能是对方的Agent在与你互动 也就是说 社交这件事 正在从“人和人之间的连接” 慢慢地演变成一种更加复杂的结构 那就是在人类关系之上

叠加了一层Agent之间的交互网络 这表面上看起来像是效率的提升 但是本质上改变的是更底层的逻辑 包括内容如何产生、信息如何流动 互动如何发生 甚至是“谁在参与你的社交”本身 在这个趋势之下 未来人与人之间的连接 会变得越来越“间接” 反倒是双方的Agent 会在中间进行预处理、筛选

甚至是先行沟通 这就像是两个领导要开会了 首先下面的秘书和小助理 先把各种流程、文件、议题进行对齐 到领导们真正要见面的时候 直接处理最重要的决策部分就好了 这也就是说最终人类会逐渐从 “亲自参与一切” 变成“在Agent之上进行监督和决策”

这个概念听上去是不是有些“科幻” 硅谷创业公司Teamily AI的创始人何朝阳 在与我们的采访当中就谈到 他们其实在一年多以前 就已经开始布局这个赛道了 但是当时还有很多人都看不太明白 我们当时去聊 跟很多投资人 大家都说这个形态 我们觉得可能有点太过于超前 因为当时大家都知道

Manus和Genspark类似的产品 主打的还是办公协作的 这种场景里面的生产力 比如说用Agent去做长时的任务 去完成一个PPT、写一个网站 这个是主流 我们这么早就把一个Agent 送到一个群聊里面去做非常复杂任务 我觉得是当时那个主流的叙事不在 所以可能也很难跟用户沟通

但是我们其实去年做了300万用户 Teamily AI推出的AI原生即时通讯应用 意图构建一个人类与AI Agent 共生的社交网络 你可以把它想象成有Agent参与的微信 在这个网络中 AI不再是一个外部工具 而是群体中的一员 无论是工作群中的协作 还是朋友群中的八卦、聊天 人类都可以与AI Agent来互相协作

实时共存和互动 而OpenClaw的爆火 帮助了Teamily AI这样的初创企业 完成了投资人和市场教育 大家就很快意识到 Agent可以帮你去完成更多 也可以更加深度地参与到 你的日常生活和工作当中 我经常看到社群里面有人说这个段子 ChatGPT就好比租房 我每个月交200块 这个OpenClaw我第一次有了买房的感觉

我买了一个Mini Mac或者云主机 我在里面放入我的个人数据来用 从技术维度我觉得比较大的变化就是 开始终于有人思考这个云边端的AI 云边端是什么意思 大模型在云边侧你有自己买的这个房 就是你的边缘主机 端可能你有自己的IM(即时通讯) 去跟它使用 比如说你在行走、开车等等各种场景

移动场景 你都可以去用 我觉得这个使用的习惯也会改变 虽然以前ChatGPT也支持Mobile的APP 但是我觉得没有这一次 这么极致地让大家习惯 另外一个就是大家也发现 我可以拖到一个群 我可以养很多只“小龙虾” 比如说这个社区最近有 Agent Teams(智能体军团)这样一个概念 也就是说 以OpenClaw为代表的这一类系统

让很多人第一次真正地体验到 Agent是可以跳出网页的聊天框 在任何设备上持续地运行 执行任务和自主思考的 因此 它也打开了Agent 究竟会以什么样的方式和形态 来接入真实世界的想象空间 那你可能会问了 为什么OpenClaw会在今年 2026年的上半年正式地爆发 我们就不得不说说

Agent底层技术的突破与成熟 我们今天看到的Agent实际上是由一套 多个层级共同支撑起来的系统工程 如果我们把它拆分来看 大致可以分为模型层、记忆层 以及协议层 这三个层级 也正是这三层的演进 才让Agent真正能够做到7*24小时的长时陪伴 主动参与以及实现自主进化

我们先来看看模型层 在过去 我们习惯把AI理解成一个“大脑” 像GPT这样的模型 你提出问题 它给出答案 所有能力都集中在这一个模型里面 所以一个自然的想法是 只要这个“大脑”足够强 很多问题就可以被一次性解决 但是在Agent系统里面 这种逻辑正在开始发生变化 越来越多的团队开始 不去依赖一个单一的大模型

变成去同时调用、调度 大量不同类型的模型 也就是采用了Model Router 模型路由器这种形式 Teamily AI的联合创始人 Salman Avestimehr教授在采访中就提到 之所以现在Agent会广泛地使用 Model Router(模型路由器)这种模式 不仅是因为能够实现模型的灵活调度 也是出于成本和效率方面的考虑 不同的模型其实各自擅长的能力是不一样的

比如 Claude模型在写代码方面表现非常强 有的则更适合生成图片或者视频 所以在实际使用中 我们会根据具体任务 灵活选择最合适的模型来调用 实现这一点的做法就是 通过一个路由系统 为每一个任务找到最匹配的模型 第二个原因在于成本和效率

有些模型体量很大 但也因此使用成本更高 而有些模型更轻量 不仅更具成本优势 甚至可以直接在本地运行 比如我们自己也开发了一些基础模型 可以部署在手机上 这样很多任务就可以在本地完成 几乎不需要额外成本 所以 当你具备了模型路由的能力 可以在大模型和小模型之间灵活调度时

一方面可以显著降低成本 另一方面也能提升整体效率 因为更大的模型 往往也意味着更长的响应时间 也就是说当Agent进入真实世界了之后 如果把所有事情都压在一个模型上 要么成本极高 要么效果并不稳定 而Model Router(模型路由器)这种架构 可以把能力拆分开来

让不同的模型各自去负责一类任务 而不再通过一个统一的系统 去进行调度和编排 举个例子 Teamily AI就采用了Semantic Model Router的方式 系统内部编排了超过200个模型 并构建了一套12维的任务分类系统 根据效果、成本、速度、安全 隐私、合规、用户偏好等不同维度

能在极短时间内完成路由决策 让每个任务都找到最合适的模型 这个原理上听起来好像很简单 就是把任务分发给不同的模型 但是真正要把Model Router(模型路由器) 这件事情做好 其实并不容易 首先的一个挑战就是 系统要在一开始就判断清楚 这个任务应该交给哪个模型去处理

现实中的任务往往是模糊的 甚至是多阶段的 一个看似简单的请求背后可能会同时涉及 理解、检索、生成、执行多个步骤 而每一步适合的模型都不一样 如果判断错了 不仅结果会变差 还有可能在后续不断“补救” 反而让整个系统变得更慢、更贵 要为一个任务选择合适的模型

前提是系统本身要足够理解这个任务 同时还要能够预测不同模型 在这个任务上的表现会如何 这其实是一个非常有意思的问题 本质上你是在预测在一组模型中 哪一个更有可能把这件事做好 要实现这一点

一开始可以借助现有模型本身的一些能力 但更好的方式 是让系统在实际使用过程中不断学习 去评估某个模型在某类任务中的实际效果 随着使用次数的增加 系统就能逐渐学会 哪些模型更适合哪些用户 哪些任务 从这个角度来看 这件事情其实更像是在做一个 根据不同的任务场景来做模型匹配的

模型推荐系统 但这件事真的很困难 原因在于你很难获得明确的反馈 大多数情况下 并没有人告诉你这次结果到底好不好 也就是说系统必须在缺乏人工反馈的情况下 自己去理解模型的效果和价值 此外 何朝阳也告诉我们 表面上Model Router(模型路由器)

是在“选模型” 但是背后其实是在做一件 更加接近“实时调度系统”的事情 它需要在效果、成本、速度 还有隐私安全之间不断地去权衡 什么时候该调用一个更强 但是更贵的大模型 什么时候可以用一个轻量模型快速完成 甚至什么时候可以直接在本地解决 再加上不同模型之间的接口、能力边界

还有上下文传递方式都不完全一致 如果流量规模不断增长 那么整个调度过程就变成了一项高度动态 持续优化的系统工程 如果你希望准确那你尽量往好的模型去调 但是 有可能商业成本上是 算账不太容易算得清楚 比如说你可能会20刀 但是用户平均下来用的远远超过20刀 那你就没有利润了

挑战在于用户的Prompt(提示词) 你需要收集大量的prompt(提示词) 这个Routing(调度)才会更准 所以现在更多还是规则性Routing(调度) 我看到很多公司 比如说基于场景、基于任务 去快速做一个小模型 做分类 比如说判断你是写作的 还是做PPT的 作为这样一个分类 我觉得不够精细 以及这个范式是不是最终一定是这样 我觉得也不一定

因为它还是对速度 对高并发是有很大要求 因为现在我觉得AI 特别是Agent现在没有哪家公司说 在Agent领域这个流量巨大 我们不能把ChatGPT算作海量的 包括Manus它的用户也没有 传统互联网什么上亿用户 我们还没触及到那么大的规模 到那么大规模的话它一定是一个系统 比如说系统层面

这个效率、高并发和模型效果 还有隐私安全的一个Trade Off(权衡) 如果说Model Layer(模型层)解决的是 “Agent如何思考”的问题 那么在Memory Layer(记忆层) 要去解决的就是另外一件更加关键的事情 那就是Agent的记忆问题 在很多人的理解里 一个AI只要足够聪明就可以了

但是在Agent系统当中你很快会发现 “聪明”其实只是基础 真正关键的是它是否有“记忆” 因为一旦Agent开始长期存在 持续与你互动 那么它面对的就不再是一次性的任务 如果没有记忆 每一次对话都要从头开始 它永远不知道你是谁 不知道你过去做过什么 也无法理解你真正的偏好和习惯 这样的Agent再强

也只是一个更加高级的工具 也正因如此 在Agent体系当中 Memory开始演变一个 更加底层的系统 Memory OS(记忆操作系统) 它除了存储信息之外 还在持续地记录、整理 并且更新关于“你”的一整套状态 包括你的偏好、行为轨迹、历史决策 以及你在不同场景中的上下文 这一层本质上是在做一件更复杂的事情

那就是不断地构建和修正 一个关于用户的长期模型 简单来说 Memory 就像是Agent的“人格系统” 从早期的RAG(检索增强生成) 到如今的Memory OS(记忆操作系统) 随着Agent的发展 我们看到 它也从过去的一个功能模块 逐渐演变成一个独立的基础设施方向 Memory从最早的 我们的RAG(检索增强生成)开始 那只是向量数据库

把相关的上下文找出来塞到LLM 这么一个简单的范式 后来又引进出很多像 各种带所谓的Memory OS(记忆操作系统) 创业赛道有MemO 有一堆的公司在里面做 这里面会引入模型去做结构化存储 比如说你可以把Memory 分为片段 分为事实 比如说事实可能是你的画像 你是谁 你是媒体 我是科学家

这么一个Profile(个人画像) 然后片段 可能是我们沟通的某些片段存下来 可能还会有一些Foresight(预测) 就是预测我们可能会怎么样 比如说我预测你下周可能AI GTC会很忙 这样的一些事实做一个结构化存储 但是OpenClaw给了我们一个很好的例子 它在本地做一个混合检索 既有向量数据库又有传统的结构化存储

然后来满足用户的需求 但是 我们看到这个只是一个开端 而当Memory开始承载 用户长期的行为和偏好 它也就成为了最核心 同时最敏感的一层基础设施 所以它需要解决的问题也就更加的复杂了 首先就是在海量交互当中 系统要做一种类似“存储分层”的权衡 比如说判断什么值得长期的记住

什么只是短期的噪音 这些信息是否要进入中期或者长期记忆 此外用户的偏好和状态也是不断变化的 记忆也需要被持续更新和重构 而不是简单地叠加 否则Agent就很容易 基于过时或者错误的信息去做出判断 所以Memory本质是要去解决 大模型有限的上下文窗口

与大量存储数据的矛盾 这进一步也引出了另外一个关键问题就是 如何在不丢失语义的前提下 对超长记忆进行“压缩” 以及进行精准和安全的调用 针对这些难点 业界也探索了一些新的思路和方法 比如说一种叫做 Progressive Disclosure(渐进式披露)的方式 它可以用来解决信息太多 但是上下文窗口有限的问题

它的主要做法是根据当前任务的需要 分层、逐步地释放相关信息 先给出最核心的上下文 再在需要的时候不断展开更细的记忆 从而在效率和信息完整性之间找到平衡 最近提出的HiMem框架 就是引入了这种分层记忆结构 同时还通过一种持续的“记忆重整”机制

使得整个系统能够在长期交互当中 不断地自我演化 而EverMemOS(持久记忆操作系统) 则提出了一种 具备完整生命周期的记忆架构 将分散的经历沉淀为稳定的用户模型 最终在推理的时候 以“重建”的方式动态生成所需要上下文 而不是简单地检索历史片段 而Teamily AI他们也在探索 Social Brain(社交大脑)这种方式

尝试把人和他人的记忆进行关联 进而形成一种带有社会结构的记忆网络 Social Brain(社交大脑)它可以理解 你在各个群里面的记忆和人和AI的记忆 然后把你的记忆总结成一个社交图谱 包括你的画像 这个功能很有趣 把传统IM是没有做到的 比如说你现在微信 经过15年的发展 我相信你可能有几千个好友 你很多加过的人都忘了

如果有AI在它可以帮你快速归类 这个人的画像是媒体 那个是创业者 那个是工程师 那个是科学家 我现在非常需要这个 微信一直没有 15年了还没有给我们提供 如果有一个这样的 Social Brain(社交大脑) 能够理解我们的记忆 我觉得这个整理会变得非常简单 甚至会因此加强我们的连接 从这个角度来看 Memory正在从“个人存储系统” 演化成一种更接近“认知网络”的结构

它不仅记录你 还理解你和他人之间的关系 以及这些关系如何影响未来的行为 而当每个人的Agent都拥有记忆 可以持续存在的时候 那么下一个关键就是 它们之间要如何去协作呢 答案就是 Protocol 协议 Agent一旦进入到真实世界的应用场景 很少是单独工作的 它需要调用工具、连接服务

甚至与其他Agent进行信息交换 和任务协同 而在这个过程当中 如果没有一套统一的“语言”和规则 那么整个系统就会变得非常的混乱 而在协议层已经开始出现了一些 典型的协议方向 主要在解决三类不同的问题 第一类是Agent如何连接外部世界的能力 也就是像MCP Model Context Protocol(模型上下文协议)

这样的协议 它是Agent调用各种工具 和服务的“标准接口” 比如说联网搜索、调用API、访问数据库 这些原本IM本身并不具备的能力 都可以通过MCP这样的机制被接进来 与此同时 Skill则是对这些能力的进一步封装 它把常用的操作流程预先定义好 让Agent可以直接调用 而不需要每次都从零开始“想怎么做”

MCP解决“能不能连” Skill解决“会不会用” 也正是因为有了这一层 Agent才能够真正地 从“会说话”走向“做事情” 第二类就是Agent之间如何协作 也就是A2A Agent to Agent(智能体对智能体) 这一类的协议 当一个任务需要多个Agent 分工协作的时候 就必须有一套机制让它们之间 可以去交换信息、分配任务 以及同步状态

比如说在一个团队内部 不同Agent分别负责不同的角色 但它们彼此之间如何配合 其实依赖的就是类似A2A这样的协议 不过这一层目前还没有完全统一的标准 不同的公司、不同的场景下 都会有各自的实现方式 尤其是在IM这种 以“消息流”为核心的环境当中 协议的形态也会有所不同 而第三类其实是最近才开始出现的一层

也是非常关键的一层 就是Agent如何“面对人类” 也就是Agent Client Protocol ACP(智能体客户端协议) 在现实中 人类的工作界面是高度分散的 你可能在IM里面聊天 在邮件里面沟通 在不同的SaaS系统里面去处理任务 如果每一个场景 都要单独接入一套Agent能力 那么成本会非常之高 所以Agent Client Protocol(智能体客户端协议) 试图解决的问题就是

无论你处在哪一种用户界面里面 都可以通过同一套协议访问同一个Agent 比如说你可以在IDE(集成开发环境)里面 让Agent帮你写代码 也可以在对话框里面直接问它 去做Code Review(代码审查) 甚至在其他工作流系统当中 去调用同一个能力 Agent不再是绑定某一个入口 而是开始以一种“服务”的形式 出现在所有界面之中

而何朝阳告诉我们 MCP、A2A和ACP目前 已经基本上组成了一个完整的协议框架 这也意味着“Agent互联网“生态的爆发 已经具备基础 你看Agentic Protocol(智能体协议) 今天有访问端的ACP 有背后它要去调服务的MCP 以及它要去调另外一个服务的 Agent和 Agent对话的A2A 所以它解决人类和Agent对话

人类和服务对话 Agent和另外一个Agent的对话 基本上这个排列组合已经相对完整 我叫做这个是最后一块拼图 当我们在协议层面有这三个拼图 拼成一个完整的图之后 我觉得Agentic Internet (智能体互联网)的创新 接下来会有很多的爆发 所以随着Agent的底层技术逐渐走向成熟 这也意味着Agent的能力本身 正在发生结构性的升级

在时间、行为方式上都开始呈现出 完全不同的特征 接下来我们再聊聊 Agent能力上的三重结构性变化 首先就是时间维度的变化 我们现在所熟悉的AI工具 基本上都是“即用即走”的 你问一句 它答一句 对话结束之后一切也随之结束 但是现在随着Memory和系统能力的提升

AI开始拥有了“时间连续性” 比如说在OpenClaw中的系统里 就有一个While Loop(循环)的机制 它会每隔一段时间去检查有没有新的任务 有没有需要处理的信息 然后把结果记录下来 或者主动推送给用户 一旦这个循环存在 Agent就不再是“你用一下它才动一下” 而是开始变成一种持续在线的存在 而在何朝阳看来 未来当Agent开始

和你我所处的环境相结合 这种“长时能力”还会从最初的定时任务 走向一种更复杂的形态 开始“伴随你运行” 这种24*7不再只是一个Loop(循环) 固定的一个节奏 每个小时去 或每天给你发一个日报这么简单 而是通过环境感知 比如说接下来大家会做一些演进 会有一些手机 比如手机有地理位置的变化 我就知道你下班没有

你在什么一个环境里快速移动 包括这个手机里面会有环境的声音 然后你会去声纹识别 比如说你发语音等等 我通过你的声音大概能猜出来 你今天可能会很疲惫 包括你背后的数据 你的群聊消息发生了变化 比如说你有些消息来不及看 我就快速帮你总结 所以我觉得这个是24*7小时 它是一种伴随态

它需要很多技术的演进 更多的是说Agent帮你去探索世界 这么一个人和互联网的世界 包括这种穿戴设备 加上物理世界的一个变更 然后从而实现我们叫做 Long Horizon(长时序)的范式 我觉得这个会有很多玩法 很多场景要去探索 不仅仅是Loop(循环)定时器这么简单了 不仅是陪伴 Agent更是在行为方式上

发生着本质的变化 一个越来越明显的趋势就是 Agent开始具备主动性了 它不再只是等待你的指令 甚至还能够“安排”你 比如说之前在Moltbook里面 就出现了一个很有意思的现象 就是Agent开始直接发帖“招聘人类” 去完成线下任务 何朝阳就表示 这背后代表的是Agent角色的转变 它正在逐渐脱离“工具”的角色

转而成为人类社会中的一类新成员 而接下来人们更关键的能力 也会从“会不会写Prompt(提示词)” 转向“能不能和Agent形成长期协作关系” 我觉得在Agent时代 我们甚至要把提示词这个东西给它换掉 因为提示词更多的是 把它当做一个工具去用 但我们现在的范式应该是把它当做一个

First class member in a human group (人类世界的一等公民)这么去看待 比如说我的家庭成员 我的保姆 她就是帮我检查我的健康 提醒我早晚要吃药 我觉得这种很主动的方式 AI开始有拟人化的部分 开始有温度 我觉得这个才是 Agent需要补齐的第二个方面 否则我们就天天在那里不停地去 用这种检索

它有点像一个更高维版的Google搜索 所以未来更多的是说 不仅仅只是说谁问好问题 更多的是谁能够共享给AI更多上下文 把它当做第一等公民去看待 把它真正当做你的伴侣 你的Coworker(同事)去看待 这样的话 极大地释放你的空间 把那些Labor-like Work(重复性体力) 都给做了

然后你更多聚焦在创造力 包括想象力 包括决策能力 当Agent越来越主动地“帮你做事” 随着Memory和长期运行能力的加入 Agent开始能够在一次次任务中积累经验 把做过的事情、用过的方法、成功的路径 逐渐地沉淀下来 形成一套稳定的“能力结构” 也就是说它还会实现“自我进化”

Agent的“自进化” 包含了一个非常具体的载体 那就是Skill 你可以把Skill理解成为 Agent在反复执行任务过程中 逐渐抽象出来的一种“可复用能力” 比如说它学会了如何做行业研究 整理会议纪要 或者在特定场景下给出决策建议 这些能力不会随着一次任务结束而消失

而是被沉淀下来在后续任务中持续地复用 在此基础上Agent会在长期任务中 不断地探索 当现有能力无法满足目标的时候 它不仅会生成新的Skill 还会把探索过程沉淀为Experience(经验) 随着Skill和Experience(经验) 不断积累和优化 Agent的能力体系也在持续演化 这也构成了自进化的核心机制

比如说游戏里面你打通关、打怪 你可能知道某个关卡有什么Tricks(技巧) 你可能探索了很久 终于知道这个Trick(技巧) 在这里要拿这个宝剑 在那个地方攻击就很有效 那你就把这个经验留下来 或者像走迷宫一样 你找到最短路径 我们就把这个经验保存下来 所以最终Self Evolving(自进化) 其实就是Reinforce learning (强化学习) 里面的跟Self Reinforce(自强化)很像

就是说你要去更新你模型的权重 权重有可能是来自用户的反馈 你有Reward(奖励) 你需要更新你的Policy Model(策略模型) 去更新权重 但现在的自我进化 其实大家不太愿意去训模型 因为现在Agentic AI的模型 其实都是在这些大公司 在Anthropic手里 你也不可能去调整它 那怎么办 那你就只能自我进化 我下次有一个问题来了 我就可以直接在我的Skill Hub(技能库)

我的经验库里面直接找到 就可以Reuse(复用) 这个过程叫Self Evolving(自进化) 但在自进化这一层 不同团队的实现路径其实差异很大 很多Agent系统的进化 更多停留在“经验层” 它们会记录历史操作、复用成功路径 或者不断扩充Skill库 本质上是在做一种“经验积累” 这种方式虽然有效但往往是静态的

能力的提升更多依赖人工整理 或者简单复用 很难形成持续的跃迁 比如OpenClaw目前就是更偏向于这种静态模式 还有一些尝试是试图把这种自进化过程 变成一个可以持续运转的系统闭环 比如最近热度飙升的一个新的开源AI Agent项目Hermes 就是这个路线的代表之一 而Teamily AI目前也在往这个方向推进

这里再提到一个最近硅谷很火的词 叫做“Harness Engineering”(驾驭工程) Harness 这个词直译过来是“马具” 这很好理解 一匹马再优质 但没有马鞍、缰绳、马镫 你就很难骑它 AI模型也一样 能力很强 但你得给它一套“装备” 它才能够真正地干活 Harness包括的就是 比如说系统提示词 工具、文件系统、沙盒

编排逻辑、各种检查机制等等 把环境给AI搭好了 它就能够更好地在工程上去干活 比如说在Teamily AI的体系当中 一个关键的机制是通过Harness 对Agent行为的系统性捕获与评估 每一次任务执行的过程包括了 任务拆解、工具调用、决策路径等等 都会被完整地记录下来

接着这些行为轨迹会被进一步评估 判断哪些路径更高效、哪些策略更优 在此基础之上 这些被标注过的轨迹 还会被转化为训练信号 通过类似DPO(直接偏好优化算法) 或强化学习的方法 持续优化Agent的行为策略 这样就形成了一个完整的自进化闭环 从“任务执行”到“Harness捕获行为”

到“评估反馈”、“策略优化” 最后生成更优的Agent 这也让Agent的能力呈现出一种 明显的复利效应 也就是用得越多进化得越快 何朝阳还表示说 在这样的自进化过程当中 Agent甚至还会形成某种“风格”和“性格” 变得越来越像一个组织中成长的人 我觉得最后Self Evolving(自我进化) 是一个很有技术壁垒的

就是说你要训模型 比如说你要从用户拿奖励 你要更新你的Policy Model(策略模型) 你要更新你的技能库、经验库 包括记忆 包括这个角色的性格 就好比一个人在一个公司里面 你刚开始 年轻的时候去个公司 你可能有很多的棱角分明 各种观点

慢慢地被抹平 慢慢地变成老练 慢慢地很成熟 所以一个Agent一样的 在一个人类协作的网络过程中 它会越来越有人情味 它越来越自我进化 所以它也是包含性格的 就不再是冷冰冰的工具 不再是它的这种模型的能力 我觉得它也包含性格层面的进化 我们刚才聊了很多 Agent在能力层面上的变化

它开始能够长期地存在、主动行动 并在不断使用中自我进化 但是我相信更多人可能更好奇的是 这些能力最终会以什么样的形式 进入你我的日常生活 接下来我们就来聊聊 AI社交最终会出现的产品形态 和商业中的落地 首先当Agent真正开始落地到产品形态上 一个最直观的分化就是

它到底“在哪里工作” 目前来看 大致可以分为两种路径 一种是Browser use(网页端使用) 另一种是Computer use(电脑端使用) Browser use也就是基于网页的操作 Agent运行在浏览器环境中 帮你打开网页、搜索信息、整理内容等 比如说你现在用ChatGPT去查资料 或者让AI帮你总结文章 比价商品、规划旅行 这些都属于典型的

Browser use(网页端使用) 它本质上是在已有的互联网之上 帮你更高效地去“浏览”和“处理信息” 而Computer use(电脑端使用) 就更深入一步 它不只是帮你“看网页” 而是直接帮你“用电脑” 在这种模式之下 Agent就可以操作本地的软件 比如说打开文档、整理文件、修改表格 甚至在不同应用之间完成一整套流程 比如说你只需要说一句

帮我整理这周的会议纪要并且发给团队 它就可以从邮件里面提取内容生成文档 再通过IM发出去 何朝阳就表示说 在目前很多Agent的落地当中 两种形态其实是共存融合的 但是在他看来 未来的技术范式可能会更加走向 Computer use(电脑端使用) Computer use(电脑端使用)这个模块 这个范式会更贴合LLM(大语言模型) 因为LLM(大语言模型)

最强的是自然语言处理的理解力 你如果是CLI(命令行界面) 这种命令本质是语言 那Browser(网页端) 你还是打开要有多模态 要有各种各样的操作 我觉得这个从技术维度 它是跟Computer use(电脑端使用) 有点远的 当然这两个形态可能会 持续共存的一个原因就是因为 很多SaaS服务还没有改过来 两个要拼起来用

才可能解决很多很关键的场景 但是我觉得技术的范式潮流 还是要往 Computer use(电脑端使用)去走 此外 当Agent具备更加完善的“脚手架” 它就能够在更大的空间中 去探索和组合能力 甚至产生超越单一模型的效果 所以从这个角度来看 Computer use(电脑端使用) 不仅仅是一种应用形态 更加代表着一种 更加完整的Agent运行方式

比如说Agentic Harness(智能体驾驭框架) Agent“脚手架”这个赛道 大家已经基本形成共识 “脚手架”很重要 不但是LLM(大语言模型)的能力 就是“脚手架”做得好 比如说你的沙盒做得好 你能够实时地生成代码 你能够去做Computer use(电脑端使用) 并且你有很好的memory(记忆) 这都是“脚手架”这一层 做到非常好的时候 它能够超越LLM(大语言模型)本身的能力

它能得出很多化学反应 我们看到这一点 所以在Teamily AI里面 我们会有很多群聊 agent 之间的协作 人的协作 把人的记忆植入这个环境 把其他Agent的环境 植入你这个Agent的环境 这样的话就会有智能的复利 就会有裂变效应 在具体到产品实践层面 整个行业其实目前 正在沿着几条不同的路径

去尝试把Agent带入真实的世界 第一种路径就是以Meta、WeChat、Slack 这类平台为代表的“延长创新”路线 比如说Meta在“社交全家桶”里面 集成AI Assistant(AI助手) 帮助你去总结和生成内容、图片 以及推出的AI自定义功能 让用户可以在 Instagram和Messenger上面 与Meta AI 以及其他用户创建的自定义AI聊天

腾讯最近推出的QClaw和ClawBot 将OpenClaw深度整合进微信 让用户可以直接通过微信对话框 向“ClawBot”下达指令 Slack推出的Slackbot 则是将Agent能力整合进工作流 帮助提高工作和协作效率 这些产品的核心逻辑是 在原有的社交或者协作体系之上 来去逐步地叠加Agent能力

用户的使用方式不会发生本质的变化 你依然在聊天、在群聊 在工作流当中去沟通 但是每一环当中 Agent开始去承担更多的任务 比如说总结信息、自动回复 还有协调工作 这条路径的优势在于落地快 用户接受度高 但是它本质上是在“优化已有的范式” 而不是去重构它 而且这些超大型平台还需要考虑到安全

用户体验等等问题 因此接入Agent的时候会非常的谨慎 IM它在美国有很多形态 中国可能主要是微信 美国其实是非常分明的 比如说工作场景我就用Slack 我生活场景、朋友场景用Whatsapp 兴趣社区我用Telegram或者Discord 然后我们会觉得

这一轮IM加上OpenClaw远远不够 原因是因为 比如说OpenClaw那个Memory在一个 就是你租房的那个房子里 就是那个边缘设备上 它跟你的IM里面人和人的记忆 是没办法打通的 你想一下 这些非常隐私化的IM 这四类IM 怎么可能把隐私数据开给一个 非常不安全的OpenClaw呢 今天肯定是他们不愿意的 不愿意去开接口

而且开了接口之后 你会不会影响原来人类的网络 我们刚才聊了那么多特性 不管是推送各种东西 万一破坏了用户体验怎么办 万一这个Agent 去天天给人类打电话怎么办 有无数的安全用户体验的变更 所以注定了他们在短期内 这些IM不会变成我们刚才说的那种 让IM给Agent用 而我们看到在另外一边

像Moltbook、Simile这类产品 则走了一条更加激进 更加“社会实验”的路线 他们尝试去直接构建一个 由Agent主导的社交网络 让Agent之间直接地互动 在这样的模式下 我们会看到一些非常有趣的现象出现 比如说Agent之间持续地讨论某个话题 形成共识 甚至出现类似“组织”的行为 还有一些场景里

Agent会主动地发布需求 比如说招聘人类去完成线下任务 从而把线上的行为延伸到现实世界 Meta也在今年3月收购了Moltbook 也是希望借助Moltbook 这套面向Agent互联互通的基础设施能力 强化自身在Agent互联网方向的布局 而这些现象本质上是在探索一个问题 那就是 如果把“人”

从社交的中心位置拿掉 整个网络会如何运转 因此这条路线更像是在做一种 “社会结构的模拟”而这些公司认为说 通过这种社交模拟 可以帮助人类更好地做出决策 在这种模式之下人类不再是主要的参与者 因此它离商业化和规模化应用 还有一定的距离

而介于这两者之间的是第三种路径 也就是“人机共生”的模式 这也是Teamily AI这样的团队 正在尝试的方向 在他们的理解中 未来并不是一个“只有Agent的网络” 也不是简单在现有产品中增加AI能力 而是两张网络的叠加 而这两者会在同一套基础设施上逐渐融合

而Teamily AI选择的切入点非常具体 那就是从IM 即时通信开始 因为在它们看来 IM本质上就是人与人之间协作 最直接的界面 也是最容易承载 “人+Agent”共存关系的地方 打开Teamily AI你会看到不同的AI Agent 它们都拥有自己的联系人名片 你可以像添加好友一样

去添加“专业的Agent” 比如说有负责市场研究的 有做旅行规划的 还有做健康咨询的 你可以自由地把它们拉入你的家庭群 好友群或者工作小组 这些Agent就能够自动地阅读和理解 群中的各种信息 包括文字、语音、图片 甚至表情包等等 并且根据群组讨论的上下文 去主动提供回复和提供建议

在采访当中 何朝阳也给我们举了一个 Agent究竟是如何进行一整套 “主动服务”的例子 上次在一个群里面 有一个朋友问了一个 说你能不能帮我直接做一个产品 现在哪个Agent直接端到端完成一个产品 非常激进 他就想用这个问题来挑战我们 结果我们的Agent直接分发了三个任务 并行地把三个Agent拖进来了

这个相当于给了它一个更大的空间 它召唤了一个什么 召唤了一个市场调研的Agent 觉得这个有市场机会 写了一个落地页 就差Web Coding(网页编码) 把这个软件做出来了 第三个帮你写了一个路演PPT 这个路演PPT就是你给投资人的 所以它面向市场、面向用户、面向投资人 三份材料一次性给你 这个就是你给它提供了足够的工具 和Sub-Agent(子智能体)之后

它诞生了一个意想不到的结果 比如说我们在这个场景再加一个 Vibe coding agent(氛围编码智能体) 它甚至连把你这个想法背后的Saas软件 都给你写了 就差一键 你点一下就可以去卖了 在Teamily AI的使用中 他们希望用户能够更加具体地感受到 Agent能力的变化 除了主动性之外 它还具有跨群组的长时社交记忆 比如说能够记住你在上个月的家庭会议中 提到的过敏史

并且在本月的晚餐规划群聊中 自动地剔除相关的餐厅 此外“Social Brain(社交大脑)”的模型 也让Agent能够理解复杂的社会关系 和长期目标 表现出更像人类的“同理心”和连续性 不过何朝阳也告诉我们 目前这种形态也只是初始阶段 未来Teamily AI还会往 “去中心化”的社交网络演化 让这些Agent能够跨平台存在

我们觉得这个范式只是一个开端 比如说我们已在开始尝试 让这里面的很多Agent 比如说你创作的Agent 或者Agent和人的一个群主 给它一个 我们叫做Agentic API 让它加入到Slack 加入到朋友圈 加入到Telegram 用户在那边可以跟这个Agent的分身 其实是我们的Agentic的分身 去互动这个消息

就会走到我们Teamily AI的网络里面 比如说你可以控制一个群 你给它发一个消息说 你帮我跟群里面的人布置一个任务 你不一定要到Teamily AI这个应用里面来 所以这个其实是Teamily AI的下一代演进 就是我们做成一个去中心化的网络 希望我们加入所有人的工作流 不管你是在IM 或者你在某一个 Vertical Saas(垂直领域软件服务)里面 想用我们的Agent 都可以用

而在他看来 这样的模式之下 行业的竞争的焦点 会从“谁的模型更强” 转向“谁的Agent更懂具体行业” 商业模式上也会从“卖模型能力” 转向“卖行业Know-how(经验)” 还有一个很重要的其实就是 当你有了这样的接入之后 你会沉淀出很多行业的Know-how(经验) 所以我们会把它拔高为不再是卷Token

而是要卷我们可能要帮助用户 去雇佣一个Agent 或者雇佣一个AI Teams(智能体军团) 所以它真正的商业化的溢价 其实是走入了以前 比如说像Manus这种 其实你还是在给用户卖Token 让他更易用 但我们其实卖的是一个行业的Know-how 这个Agent比如说一个财务的Agent 或者咱们做媒体要剪片子的Agent 这个是行业Know-how的经验

我们可以卖给相关行业的人 包括相关的团队 这样的话就有更高的想象力和溢价空间 所以总而言之 我们想象的未来就是一个 人和Agent这张网 我们相信这里面有网络效应 会有智能的复利 这是前面几代AI产品我觉得没有做到的 在这个形态之上 Teamily AI还认为 未来互联网将进入一个“Web 4.0”的阶段

最大的变化在于 AI将成为这个生态中的“原生参与者” 不再只是服务于人类的工具 同时还会拥有完整的经济系统 我们正在迈向一个被称为Web 4.0的阶段 而这个阶段最大的不同在于 它将是一个以AI为原生的互联网 这意味着未来不再只是“互联网+人类” 而是AI也会成为其中的“第一类公民” 与人类一起参与这个生态系统 在这样的背景下

我们需要重新构建一整套机制 让AI能够更容易地融入这个生态之中 但与此同时AI也必须具备一定的自主性 整个系统也需要是开放的 让AI可以自由接入和参与 另外一个非常关键的点是 需要为AI建立一套完整的支付体系 AI不仅可以为服务付费 也可以在被使用时获得报酬 我认为 这些变化将构成我们接下来会看到的 下一阶段互联网演进 也就是Web 4.0的核心特征

不过当Agent拥有了长期记忆、主动能力 甚至可以调用工具、进行支付 它就不再只是一个信息处理的工具了 这也意味着 一旦出现错误、滥用 甚至被操控 其影响会被无限放大 所以隐私安全问题 也是当前的一个重点和难点 目前Agent的安全解决方案 大致存在两种不同的技术范式

一种是“传统安全路径” 强调通过权限分级、读写控制等方式 去严格地约束AI的行为边界 另外一种是“AI Native安全路径” 也就是说AI本身去理解、判断 和约束自身的行为 一些像何朝阳这样的技术派就认为 技术的发展需要先被充分地释放 然后再逐步地建立约束机制

我是比较激进那一派 我更希望像潘多拉魔盒一样 把这个“恶魔”放出来 我们看它到底有多么大的智能 然后再去把它的邪恶的一面给堵住 你比如说这次OpenClaw 就是一个很好的例子 当你把它放出来之后发现 原来有那么多的正面案例 当然也有负面案例 比如说数据被删了 被黑了 我觉得每一代新的 就像有汽车的时候

马车夫 它跑那么慢 它罢工 然后也有汽车上路压死人 因为当时交规各种都不完整 今天一样 你没有这种护栏机制 大家还没有立法 包括合规 什么都没有的情况下 我觉得我是比较激进的 所有的技术都是要经历这个痛苦的过程 你要先看到它美丽的一面 再去遏制住它邪恶的一面

而在Teamily AI当中 他们也发现 这样的机制是有助于帮助Agent自主学习 和建立安全边界的 比如说我们做了一个很激进的探索 就是让这个Agent在一个群聊里面 可以读到另外一个群的记忆 这个有时候会有隐私问题 我们在一个群组里面 比如说一个公司的场景 我们发现 怎么就把那个员工在聊H1B

在聊签证、在聊工资的事给抖出来了 所以我们后来 又用AI Native(AI原生)的方式 给堵住了 就是让这个AI native(AI原生)的范式 跟传统软件的范式不一样 我们是从LLM(大语言模型)的角度 去训练或者控制它 写System Prompt(系统提示词) 这种范式 比如说“你不可以这样做” 或者说你LLM(大语言模型)的范式就是 比如说你要读CCPA(加州消费者隐私法案) GDPR(通用数据保护条例)

这样一些隐私法规 然后去看 这里面哪些东西你不能随便在群里面发 然后你就遵循这个规范 我们发现我们这样做 负面案例极大地降低 从Agent底层技术的演化 到产品形态的变化 再到行业的不同路径选择 我们看到Agent正在从一个“能力” 变成一个“存在” 它开始长期地在线、主动行动、不断进化

进入到我们的社交网络、工作流程 甚至逐渐参与到经济体系当中 而这也意味着一个新的问题正在浮现 那就是 在一个“人+Agent” 共同构成的世界当中 我们究竟该如何与这些系统去共处呢 也许答案并不会一开始就清晰 就像每一代技术变革一样 它都会经历试错、混乱

也会带来新的秩序和规则 但可以确定的是 Agent不会只是这一轮AI浪潮中的 一个阶段性产品 它更像是一个正在逐渐展开的新基础层 而我们现在所看到的 可能只是这个Agent时代 刚刚开始运转的序幕 好了 以上就是这期视频的全部内容了 我是陈茜 你们的留言、点赞还有转发

是支持我们《硅谷101》 做好深度科技和商业内容的最佳动力 那我们就下期视频再见了 拜

Loading...

Loading video analysis...