OpenClaw 实际上已经火了可能有好几个月了,因此现在回顾似乎给人有种「追热点都追不到」的错觉,在我写下 OpenClaw 的个人体验之前,我们不妨把时间轴倒转到 Agentic Year 之前,也就是25年之前,当时 DeepSeek 刚推出 V3.0,有一个叫作L站的网友,开始说可以去 DeepSeek 的官网领取开发者体验金,拿来做沉浸式翻译特别好,之后的故事大家都知道,什么「梁总杀穿华尔街之类」的神话就开始留出来了
DeepSeek 给了大家一个启示,如果你价格可以打得很低,但是性能可以到达SOAT的百分之九十,那就是薄纱,大家对 DeepSeek 比较有印象的模型有两个,一个是不带思考的 DeepSeek V3.0,另外一个是 DeepSeek R1,在 DeepSeek 过年「血洗硅谷」之后,之后又出了很多非常优秀的国产模型,但似乎可能 V3.0 之后 DeepSeek 自己可能认为不足矣发一个新的大版本号,后来的故事大家都知道,重新发了 V3.1 和 V3.2,然后加了思考 —— 是的,DeepSeek 官方提供的思考模型,其实不是 R1,很多人有这样的误解
我和很多朋友对于 DeepSeek 的理解是 —— 非常听话的学生,意思就是,如果你暂时不知道你写的工作流要用什么作为底模,那不妨试一下 DeepSeek 的模型,而且更关键的是,他真的很便宜,V3.2 甚至在 V3.1 的基础上便宜了一半,我认为本质上是为 Agent 的爆发扫清了最大的障碍,如果 Token 昂贵,Agent 就只能是实验室里烧钱的玩具;当 Token 价格被打到原来的几十分之一后,开发者才敢放开手脚去构建深度的多步工作流,不过现在说 Token 便宜可能又成一个笑话了…
DeepSeek 之外,也有非常多的国产模型,比如说千问(Qwen)、月之暗面(Kimi)、智谱(GLM)等等…
我这里想聊的是智谱,因为当时刚好有一个智谱老师的分享,这个老师叫李子玄,他当时传递了一个很鲜明的观点,就是 Token 已经很便宜了,甚至 GLM 都愿意倒贴很多 Tokens 给用户,并且在当时这个分享的后半截,他分享了很多他们用自己的模型去做点餐或者是订外卖的这样的应用场景,当时我还没有接触过相关的开发,并不知道这就是 Agent
Agent 到底意味着什么#
我最近,或者在做完开源之夏的项目之后一直在思考的,传统的大语言模型只能输出文本,即便是图像和视频我们在这里也把它看作是文本吧!本质上都是在屏幕里面的东西,是被锁在一个很聪明的盒子里面的
我认为 Agent 有两个东西非常重要,规划与反思(Planning & Reflection)和工具调用(Tool Calling)
我们不妨以日常中最常见,查询当天天气为例
-
任务拆解与规划(Planning): Agent 不会傻傻地直接去搜「今天」,而是知道需要先调用
get_current_date()获取时间(比如今天其实是 2026年4月7日),然后再把这个参数传给天气工具,它懂得把一个含糊的人类意图,翻译成机器可执行的 SOP(标准作业程序) -
自我反思(Reflection/Self-Correction): 这是比单纯规划更高级的能力。假设 Agent 拿到了时间,去调用天气 API,但是 API 报错说「城市名称不合法,需要输入拼音」,此时,拥有反思能力的 Agent 不会直接把报错扔给用户,而是会在后台思考:“哦,API 需要拼音,我刚才输入的是中文‘北京’,我需要把它转换成‘beijing’再试一次。” 这种在遇到挫折时自我纠错、调整策略的能力,才是真正让 Agent 显得「智能」的地方(业内常说的 ReAct 框架就是干这个的)
如果说规划和反思是中枢神经,那 Tool Calling 就是效应器,Agent 或者是模型在训练的时候肯定不知道今天北京的天气如何,它的训练语料中也完全没必要写入每天xx地点的天气如何,它可以和人一样,上网查,大模型在这里扮演的角色,从一个「回答者」,变成了一个「指挥官」,告诉不同的工具在什么时候该去干什么
我心目中曾经最负盛名的 Agent 应当是 Cursor,Cursor 刚出的时候我还在用 VS Code 里面的 Copilot 的 Chat 模式,那时候 Claude 还在 Opus 3.0 似乎,Cursor 虽然那时候没有自己的模型(虽然现在也是微调别人的模型),但是他工具的编排做的非常好,相同的模型在 Cursor 上的效果就是要比别家好,然后今年很幸运的参加了 Cursor 的北京 Meeting Up,不过我目前对 Cursor 的模式很怀疑,因为像我在内的很多程序员都开始直接用类似 Claude Code 或者 Codex 这样的 TUI 工具了,加上 Cursor 的价格其实并不便宜… 而且他只能拿来写代码
目前我在开发者群体里面了解到,其实现在在发生一些范式的转移,传统上大家认为像是 Claude Code 这种为「写代码」为生的编码智能体只能用来写代码,但是现在有越来越多的不是和做开发相关的朋友一起加入到这场狂欢里面来,比如说我之前用过了一个Skills:Frontend-Sildes ↗,这个 Skills 是一个做商科的博主做的,我知道这个 Skills 也是开发者社区里面的一个朋友介绍的!
说起 Skills 其实也有一个非常有意思的认识,前面我们说了 Agent 的核心主要是规则思考和工具调用,我认为 MCP 和 Skills 本质上是人类开发者对大模型能力的扩展和限制边界,在编写 MCP 的时候,以 Python 为例,我们在修饰器会给一段类似于提示词的东西,来告诉模型说你可以调用啥,后来因为 MCP 太过于占用上下文空间,也有可能即便是这样模型难以理解如何使用工具来编排流程,所以有了 Skills,更加规范的任务边界和工作流,我们不再盲目迷信大模型的「涌现能力」让它去自由发挥,而是用 Skills 这种工程化的手段,把人类优秀的 SOP(经验流程)固化下来,让大模型在可控的轨道上高效运转
Self-Driven Agent#
OpenClaw 炒起来的一个很火的概念叫作「自驱动智能体」,什么叫作自驱动,我的理解是,以往像 Claude Code 这种,你需要有一个明确的工作目标,工作产出,你需要盯着你的工作区,你需要相对确切的知道你的 Agent 都干了些什么,但是 OpenClaw 改变了这一切,你只需要给一个目标,它能自己帮你完成查资料,做定时任务提醒,交互的方式也从 TUI 变成了像是 Whatsapp,飞书这种聊天框
在这里我不想对 OpenClaw 做过多的介绍,因为很多博主都写了很多,我自己其实也没怎么体验过 OpenClaw,我个人觉得 OpenClaw 火起来能有这几点,第一点是大家对于 Agent 时代的焦虑,大家可能觉得我用了 OpenClaw 就算是时代的弄潮儿了,就不会被 Agent 时代所抛弃;第二是厂商的推力,对于文本类的 Chat,其实 Token 的用量相对来说并不大(和写代码相比),但是 OpenClaw 的用量非常之大,对于之前「我们 Token 滞销了,快来帮帮我们」的云厂商而言,OpenClaw 无疑是一次绝佳的推广机会,而且很多用户之前并没有相关的服务器运维经验,他们肯定也会去买云厂商的「一键部署」功能,服务器也能卖得动了,云厂商真所谓赢麻了
最近 Anthropic(以下简称 A社)新出台了一套规定,不允许用户在 OpenClaw 里面使用 Oauth 的方式接入 Claude Code,除非是使用 API Key,再加上小米罗福莉对此举的解读,我觉得也挺符合我对未来的 Agent 时代的看法
首先,OpenClaw 本身就是一个屎上加屎的项目,我今天还尝试使用官方给的方法去安装 OpenClaw,然后出现了一个很奇葩的 packaging bug,然后我翻了一下,发现这个Issue #61686 ↗… 另外 OpenClaw 对于上下文的管理非常不合理,会经常大量发送一些可能和当前任务不相关的 Context,导致 Token 的使用效率极低
我最近在使用一个新的模型提供商来做沉浸式翻译,Groq,可能大家对他会比较陌生,他们做了专门的用于大模型推理的 LPU(Language Processing Unit),效率比现在基于传统的GPU或者CUDA Core快了非常非常非常多倍,我使用他们提供 kimi-k2-instruct 模型可能有200多Tokens每秒,速度非常惊人了
在提高 Token 使用效率的同时,我们不妨思考一下 Token 的生成效率,传统的硬件似乎已经不再适应当前的 Transformer 架构了,传统的通用硬件(CPU/GPU)已经快要承载不动 Transformer 架构的野心了,过去一年多,大家都在绞尽脑汁地做软件层面的优化(限制上下文、做 Skills、写更精简的 Prompt),这都是在「提高 Token 使用效率」,但软件优化的天花板是很明显的,当大模型深入到哪怕是点外卖、查天气、做高频网页翻译等日常生活的每一秒时,我们需要的是「极端的 Token 生成效率」,为专用的网络架构设计专用的 ASIC(专用集成电路)或类似的底层硬件,不再是锦上添花,而是”Have To Do”
最近我看了奈飞在一月份的时候新出的一部电影《超时空辉夜姬!》,也许我们可以有一个不那么恰当的比喻!
在设定中,八千代是虚拟空间「月读」的创造者和管理员,本身就是一个极其强大的神秘人工智能,她拥有构建整个世界的基础能力和全知全能的视角,但她就像是被困在巨大算力集群里的中枢,这不正是我们现在面对的那些参数量惊人的 Foundation Models 吗?它们拥有庞大的知识储备(甚至对应了八千代 8000 岁的设定),但往往需要一个出口去和现实世界交互
辉夜姬(Kaguya)就是不断生长、延展的智能体(Agent)
电影里彩叶(Iroha)作为制作人为她写歌、编排、赋予她舞台,这就像极了开发者们正在用 Tools、Skills 和工作流为大模型赋予「形体」和「行动力」,辉夜从一个神秘的源头飞速成长、去感知世界、去以虚拟主播身份行动的过程,就像是我们给 Agent 接入真实世界的接口,让它学会在真实环境里自我驱动和进化的过程
而女主彩叶的选择,正是属于这个时代的「开发者宣言」
放弃东大法学院这条传统意义上绝对稳妥、精英的世俗道路,转身投入可能是机器人、底层架构或创造数字生命的未知领域,这恰恰呼应了我们前面聊到的那场跨界「狂欢」——无论是原本学商科的博主写出了前端生成的 Skill,还是更多非技术背景的人加入进来,大家都在被这股浪潮唤醒,旧的轨道正在失去吸引力,因为亲手去构建一个「赛博辉夜姬」,去引导一个具有无限潜力的数字生命,这种创造的快感是任何传统行业都无法比拟的
时代的车轮就是这样被那些敢于跳出既定程序的「彩叶」们推着向前的,我们在现实世界里,从底层追求 Groq LPU 这样的极限算力,到上层规范化 Agent 的执行边界,其实都是在搭建那个能够让辉夜姬真正降临的舞台
回望这两年,从看着大模型被锁在聪明的盒子里输出文本,到现在用 API 和 SOP 将它们与真实的物理世界相连。我们在算力和工程的交界处,试图用代码拼凑出一个能在现实世界自由穿梭的灵魂
电影里的彩叶选择了她的辉夜姬,那现实中的我们呢?在这个所有旧规则都在被重新编译的 2026 年,如果算力不再是瓶颈,框架不再是束缚,你最想用现在的 Agent 基础设施,去创造一个什么样的「数字生命」?
