近日接到通用智能体开发任务。类似 Manus,服务于公司内部一些场景,预计包含 PPT 制作,DeepResearch,小型开发任务等。
这里梳理下当前业界里的 通用 Agent。包含其产品特点,大致实现思路等。
与正常问答助手区别
普通 chat 是为了回答问题,仅仅是问答
带上工具后,可以执行一些简单任务
带上 多Agent 架构,复杂的工具(compute-use,codesandbox, browser-use),状态管理,Human in the loop,回放等就是本文要说的通用 Agent,我更习惯称它为任务 Agent。
Google Ai Studio
这个挺好用,里面最新的模型还能免费白嫖。
包含功能:Chat,语音聊天,生图 / 视频,Build(制作各种 静态 web 应用)
值得一提,Build 里的功能包含 Web Ide,发布部署等。属于一站式开发。我个人会使用他生成一个初始化的项目,然后下载到本地,使用本地 coding 工具完成复杂需求
manus
国内网红 Agent 公司,早期凭借炒作火了一把,当然也有他的实力存在的,并且把体验码炒到数万一个。也拿到了一些融资。 核心功能:
flowith
这个比较有意思的点是:他在交互上做了创新:整体有个画布,在这个画布上,走一步对应一个节点,感观上还算清晰。
teamoteam
一家国内的 Agent,创始人早期在百度的某AI算法团队,后离职专做这个 Agent。
主要应用场景是:写作,调研。
提出了角色的概念,每个角色对应一个 Agent。总体是多 Agent 架构。这也是他们公司的 slogan:致力于推动多 Agent 发展。
核心技术
单 Agent
目前单 Agent 基本都是源于早期那个 ReAct 论文。规划-响应-监听-循环。
多 Agent 架构
首先很多场景可能不需要 Multi Agent 架构,具体怎么决策 在 Openai 总结的实践文章里有提到,可以做参考。 市面上已经有一些多 Agent 框架,比如 openai 的 swarm,qwen_agents 等。可以在代码实现上做些参考
另外一个纬度思考:一个 Agent 也可以是一个工具。这么来看就是单 Agent 模式了
状态管理
一般一个任务会对应一个总体的内容,任务的todo列表,todo的完成情况,human in the loop 等都依赖这个状态管理。
工具
工具基本依赖 mcp 协议,但是具体定义的时候有些注意事项:简洁,明确的描述工具,尽量给出 scope,因为不同的系列工具里可能有相同的名称比如: get_list。
调优
效果调优 这个是重中之重。我理解需要做好几个事情:
- 数据来源控制好,比如需要互联网搜索的场景。因为公网里有很多知识,水平参差不齐。如果拿到不好的知识,想做出好结果,肯定不可能了
- 意图识别 / 任务拆解
- 多一点明确,可以让 human in the loop 更重一点
性能调优: 这里有个 manus 的文章,其中写到了 prompt cache,比较底层技术了。对于普通入门者我觉得可以往后再看。
其他产品罗列
结论
目前还未存在真正通用 Agent,大概是 AGI 级别的模型还未出现。基本都是特定在某个领域内的通用,能做好的话也算是成功了
技术实现上思路:意图识别,任务拆解, 工具 / agent,状态控制,呈现结果。这其中的难点反倒是在工具的设计上了,有个好工具就能做出更好结果
一个 Demo 还是非常容易。但是调优性能这块却是另一个纬度的难题。