// TL;DR 一句话
通过调用云端智力,将智力的结果给到本地超大模型算力,在目前新技术的加持下可以实现 70%–80% 的本地智力与执行复现,在执行力方向和安全方向超预期。
关键词:提示词集合 · workflow · DGX 显卡 · OpenShell
12026 上半年疑问
从 OpenClaw 龙虾诞生至今,技术经过了 prompt、工作流 Workflow、Skills、harness、老黄的 DGX Spark 显卡、OpenShell 一路迭代。
核心疑问本地 200B 等超大模型借助 DGX 新架构算力卡进来 + 这么多新概念,AI 真的能跑出生产力吗?—— 或者说:到今天,AI 应用和当下最新的技术应该是怎样的发展方向?
2核心认知
| 维度 | 结论 |
|---|---|
| 模型(本地/云端) | 仍然是天花板:决定"能不能想明白"。harness 抬不高它。 |
| Harness(框架/记忆/skill) | 地板 + 稳定性:决定"长流程里会不会掉链子"。 |
| 3 月的直觉 | 依然正确:换个强模型,能力立刻天差地别。这点没变。 |
| 变化在哪 | 不是能力变强,而是多了「分流」的工具 —— 能把活拆给合适的模型。 |
3关键概念
- 蒸馏:用大模型输出去训练小模型,改的是权重。
- Agent Skill(智能体技能):一份可复用的"流程性产物",把"如何协调工具/记忆/上下文"的
how-to编码成捆绑包(自然语言说明 + 脚本 + 参考)。 - Workflow Compilation(工作流编译):把"一次昂贵的探索运行"固化成"便宜可重复的流程"。代表框架
DSPy(用强 teacher 生成示范,让弱模型也能跑好,同样不碰权重)。 - Amortization(摊销):昂贵的推理成本付一次,摊到无数次便宜执行上。
4我的两点总结(精炼后)
① 分层固化:执行层用机器语言,判断层用「写给模型」的语言
- 执行层(标准、可重复步骤)→ 用代码 / 结构化格式,确定性强,标准步骤甚至不需要 LLM。
- 判断层(需要理解、决策)→ 仍用自然语言,但要点是:为模型的认知方式写,而不是为人好读写。
反直觉的坑人工写的、自己看着很顺的 SOP,本地模型未必跑得好(人机认知错位),有时接入 skill 反而掉分。
② 双阶段联动框架(建设期 + 运行期,叠加用,不是二选一)
// Mode 1 · 建设期(离线打磨)
前沿构思 → 本地试跑 → 校验 → 反馈修正
前沿模型构思
↳ 本地模型试跑
↳ 判错器校验
↳ 把 BUG / 反馈给前沿模型
↳ 改 skill → 循环到能用 ↺
// Mode 2 · 运行期(上线兜底)
本地跑 → 失败上报 → 云端解决 → 回填
本地模型跑
↳ 判错器抓到失败
↳ 上报云端前沿模型解决
↳ 把解法回填进 skill
↳ 下次本地自己能搞定 ↺
┌──────────── 建设期(Mode 1)────────────┐
前沿模型构思 → 本地试跑 → [判错器] → 反馈BUG → 改skill → ↺
└────────────────────────────────────────┘
│ 上线
▼
┌──────────── 运行期(Mode 2)────────────┐
本地模型跑 → [判错器] → 失败?→ 云端解决 → 回填skill → ↺
└────────────────────────────────────────┘
↑ 两个闭环都靠中间这个【判错器 / Verifier】才能闭合
🔑 最容易漏的一环 = 判错器(Verifier)两个模式都默认"知道本地跑错了"。但本地模型常常自信地输出垃圾,系统以为成功,既不上报也不修正。必须显式加一层校验:规则检查(格式/字段)、跑测试用例、或让另一个模型打分。(学界 self-evolving skill 的方法名字里就带 "verification"。)
5升级阶梯(按预算 / 频次选)
- 入门 —— 前沿模型写文字 SOP / skill,本地照着跑。
- 进阶(更稳) —— 前沿模型把能固化的写成脚本,本地只做判断环节 + 异常上报(级联 cascade,思路同
FrugalGPT「便宜先上、难的才升级」)。 - 顶配(真 · 蒸馏) —— 高频任务用前沿模型批量生成成功轨迹 → 微调本地 200B,直接改造"大脑"。Hermes 支持导出轨迹做微调,这条路在工具链里是通的。
6术语速查表
| 术语 | 含义 |
|---|---|
| Agent Skill | 可复用的流程产物(说明 + 脚本 + 参考),教模型"怎么做" |
| Workflow Compilation | 把昂贵探索固化成便宜可重复流程(代表:DSPy) |
| Distillation 蒸馏 | 用大模型输出训练小模型,改权重(≠ 写流程) |
| Cascade 级联 | 便宜模型先上,难的才升级到贵模型(FrugalGPT) |
| Verifier 判错器 | 判断输出对错的环节,反馈/级联闭环的前提 |
| Self-evolving skill | 带验证、自迭代的技能进化(Hermes「自我改进」内核) |
| Amortization 摊销 | 推理成本付一次,摊到多次执行上(整套思路的经济学) |
| OpenShell | NVIDIA 开源的 Agent 安全沙箱运行时(内核级隔离,可选层) |
| DGX Spark | NVIDIA 桌面级 AI 超算,GB10 超级芯片,128GB 统一内存,本地可推理 ~200B |