鹤鹤有铭择时笔记(260127)——AI智能体(Agent)、Cloud Skills与Clawbot在火什么?

agent、skills 和 clawbot,这三个的关系。近一年,agent 这个词已经成了 AI 圈的一个热词。大模型平台在推自己的 agent,开发者在做 agent,企业也开始用 agent 来改造流程,包括做一些数字员工之类的。

image.png

但如果我们仔细去看,会发现同样都叫 agent,不同产品之间的能力边界差异非常大。尤其是最近比较火的几个,我们把 agent、claude skills 以及最近在社交媒体爆火的 clawbot 这三个放在一起比较时,会发现它们其实代表三种不同层级的能力形态。说得复杂一点,就是从平台内的多步推理,到工程化的跨环境执行,再到本地可控、有记忆的运行。

理解这些专业名词其实不是那么难。我这个视频就是要把最近最火的这几个词讲得深入浅出。所有的线索都会指导我们去看多一个板块的景气度。

了解 Agent、Skills、ClowBot 的区别,关键是要看:

  • 是否脱离大模型的封闭环境。
  • 是否具备调用其他工具的能力。
  • 是否拥有独立的、长期的记忆。

这些才是区别的核心。那我们一个个来给大家解释。

先说 Agent。这个词说了很多,其实 Agent 是泛指 AI 工具进化成 AI 智能体的这么一个定义,它并不是一个具体的产品。从能力的结构上看,一个 Agent 的具体特征可以包括:

  • 理解目标
  • 拆解步骤
  • 多轮执行
  • 自检与修正
  • 能够调用工具
  • 管理自己的运行状态

说起来很复杂,但这些特征并不是某一个平台独有的。理论上,任何大模型系统,只要把推理能力再加上执行能力结合起来,都可以叫做 Agent。因此,现实中我们看到各个平台,比如谷歌的 Gemini、OpenAI 的 ChatGPT,还有豆包、元宝,他们都有各种各样的 Agent,或者国内叫“智能体”。但是,我们认为这些都是一个狭义的 Agent 定义,它通常只运行在这些平台内部。

这些模型平台是一个封闭的环境,它让你通过一套多步骤的提示词(我们称之为Prompt Flow或Workflow,即一个流程)来完成一个相对多步骤的复杂任务。能力上可能很强,但它的边界非常明确:工具的调用范围受平台限制,外部动作的权限也非常有限。长期状态就像一个会话或一个项目集——这次会话结束,它就“忘了”,很难形成一个独立、自主的系统。

因此,我们仍认为Agent是一个广义的定义。平台内这些所谓的“智能体”或Agent,更像是一个多步骤对话的工作流,再结合大模型的推理能力,它能做一些看似复杂的事情,但不能离开这个聊天对话框去干活。

时间来到今年1月初,Cloud推出了一个叫“Skills”的东西并火了。与之前Gemini、ChatGPT平台上的那些简化版Agent相比,Cloud Skills在执行精度和跨环境调用工具方面有明显进步。但就我个人看来,其底层逻辑是一样的:都是基于大模型,由用户编写一份“如何多步骤执行”的说明书,让大模型去完成一个任务。

image.png

具体的任务步骤逻辑其实是一样的。但为什么这个东西就能火呢?主要是因为Cloud这个大模型,它跟GPT、Gemini不一样,它的应用场景主要是AI编程。与谷歌和OpenAI相比,Cloud使用的交互方式其实是一种代码交互方式。相比于Gemini在聊天框里的可视化界面,代码交互方式其实更容易实现跨环境调用资源,也就是让Skills有更多调用外部工具的能力,使用户能跳出原来聊天机器人的对话框来实现更多功能。

而且,Cloud的用户主要是工程师。工程师在编写一个说明文档,描述第一步、第二步、第三步要干什么时,自然比小白用户在原来的豆包、元宝、包括Gemini这些平台上编写工作流程要更精准,编写的流程也更准确。因此,它调用的工具也更丰富,其结果就是比原来聊天机器人平台上的那些所谓智能体能力更强,这确实有很大的改观。现在市场上,包括网上,已经有上万个Skills了。

它可以实现许多原来聊天机器人平台无法实现的功能。Skills的核心已不再是原来的多轮对话。在加入跨环境调用能力之后,其核心实际上是可执行的接口。它通过代码交互方式,清晰地定义了如何输入、如何输出,让模型在合适的时机去调用某个技能来完成一个动作。例如:检索数据、分析Excel、调用外部其他软件的API、执行脚本、生成一些结构化的、看起来比较fancy的结果,等等。

因此,Claude Skills在能力层面,相比平台内的这些Agent(我指的是谷歌、豆包这些Agent)是进步了的。它突破了纯对话的边界,让AI的动作更加可控、可落地、可集成。

然后,从上周开始,又火了一个东西叫ClawBot。它为什么又火了呢?

image.png

如果说Skills是一个工具层面的升级,那么ClawBot更像是一个完全能够自主运营的智能体落地的形态。

ClawBot的一个关键特征在于:本地部署、完全开源,并且拥有独立的存储能力,也就是拥有一个长期的记忆能力。这三个特点的叠加,直接带来了两项重要能力的提升:

第一是记忆。因为它是在一台电脑上运行,很多社媒说把苹果的Mac mini主机都带火了。原来闲置没用,现在往里面装一个ClawBot,它就可以24小时在线,当你一个AI员工。因为它占据了这台电脑,有一个独立的存储空间,可以持久地保存历史文件、用户偏好、知识库、上下文摘要等。而且它的对话不是说一结束就没了,它一直存在那边,有记忆,并且是可以被反复检索、更新、复用的一种状态。所以,这就使得ClawBot越来越像一个能够长期培养的、干活的助手,而不是每次都从零开始的聊天对话。

第二是它可以更大程度地去跨环境执行工作。本地部署意味着它可以自然地调用电脑上的工具,可以使用电脑上的浏览器,也可以使用电脑上的文件系统。

第三方的软件等等,它不再受限于某个平台提供的工具接口,它用的就是你电脑上能装的软件,它都能用。所以,它更接近于操作系统级别的智能体执行体验。

从这个角度来说,ClawBot 是把 Agent 从一个对话流程,推进到了一个可运行、可持续、可扩展的系统级别状态。

那我们再分析回来,这三者的关系,它不是一个谁替代谁的关系,而是一个分层、递进的组合。因此,我们说 Agent、Claude Skill 还有 ClawBot,它们并不是互相替代的关系,更像一种层层递进的结构。

在一个大模型的平台内部,通过聊天窗口的这些 Agent,是解决能够多步骤推理的工作。而 Skills 解决的是把一些能力变得可执行化,更像一个工具箱,你能做这么多的 Skills,这么多的执行能力。然后 ClawBot 解决的是一个本地的部署,还有一个长期的 Agent 工作状态。

其实,在2026年开年还不到一个月,在 Agent 这个方面已经有各种各样的东西开始,今天这个火,明天那个火。

具体来说,一句话概括就是:让AI智能体(Agent)越来越有能力去跨环境解决问题,同时能够调用更多工具,其能力变得越来越强。

我相信未来还会有更多执行力更强的Agent系统出现。AI数字员工在今年肯定会越来越强,能力会越来越强,能帮我们做的事情会越来越多。

而所有这些发展,其实都利好模型Token的消耗量

因为Agent执行这些任务需要消耗大量Token(即算力)。原来的一问一答模式,可能只是生成一段文字就结束了。但现在,例如在Claude Bot上部署到一台独立电脑,它可能持续工作24小时,工作的每一秒都在消耗Token。用户通过使用Claude Bot,选择某个大模型进行AI编程,它就可能从早到晚持续运行,因此会持续消耗Token。

因此,我们坚定地看好与算力相关的所有板块,从上游的设备、芯片、存储到AI数据中心(AI DC)。

但是,我们对某些应用公司反而比较谨慎。因为当AI Agent真正成熟时,它实际上是在替代传统的软件应用。

模型就是应用,Agent就是应用——它并非利好传统应用,因为它本身就是应用。

应用流量的需求会持续聚拢到这些大型模型公司。当Agent什么都能做的时候,试问,你还需要在电脑或手机上安装十几个甚至二十几个软件吗?当然不需要了!

算力与电力,其实就是Agent的粮食和血液。Agent应用落地越多,被我们使用得越多,其消耗的算力和电力就越多,这肯定是正向关系。

我们之前在择时笔记里写过几次,我认为当前算力的定价中,并未完全计入Agent爆发式增长的需求。算力和电力在某个时点,肯定会被市场重估,其估值将从周期股重估为成长股。因为,就像消费品对于人类一样,消费品享有稳定成长股或价值股的估值,它稳定,没有那种周期性。那么,算力和电力对于数字员工(Agent)来说,不就是消费品吗?