凌晨 2 点,核心交换机突发告警。运维工程师睡眼惺忪地爬起来,先登录监控平台看告警详情,再打开终端 SSH 到设备上敲一堆 show 命令,翻日志、对配置、查邻居……一通折腾下来半小时过去了,睡意全无。
这还不算完。第二天领导问"昨晚那台设备最近有没有变更过",他只能翻聊天记录和邮件,去问当时做变更的同事。如果同事正好休假,排查链路就断了。
这是传统运维的日常——工具不少,但人就是得在各个环节之间来回切换,像"胶水"一样把所有碎片串起来。
后来有了"AI 运维"——说白了,就是在后台系统外面套了个聊天框。刚拿 demo 给客户看的时候确实惊艳:"一句话就能查设备状态,太牛了!"可真正放到生产环境里,问题就来了。
让 AI 巡检 200 台设备。前 50 台跑得好好的,中间网络抖了一下断了连接,等重新连上,AI 已经不记得前面查过什么了,只能从头再来。前面 50 台的检查结果白白丢了。长周期任务"失忆",是 demo 到生产最容易翻车的地方。
跟 AI 说"把有问题的端口关掉"。AI 没确认是哪个端口、关了对业务有什么影响,直接 shutdown 了核心链路的接口。等发现的时候,业务已经断了 20 分钟。智能体不知道"能做"和"该做"之间的区别,缺的是安全边界和上下文判断。
问题根源不在模型,而在工程框架。大模型擅长"推理",生产环境需要"可控"。填补这道鸿沟,需要Harness Engineering(驾驭工程)。
| 痛点 | 表现 | 根源 |
|---|---|---|
| 上下文断裂 | 每次诊断从零开始 | 缺乏历史上下文管理 |
| 协同缺失 | 多专家结论冲突 | 缺乏统一调度机制 |
| 过程不透明 | 结论依据说不清 | 缺乏推理链路记录 |
| 风险失控 | 可能执行高危指令 | 缺乏安全校验机制 |
| 能力 | 无 Harness | 有 Harness | 客户价值 |
|---|---|---|---|
| 长周期任务 | 中断后从头开始 | 断点续跑 | 百台设备巡检不白跑 |
| 多专家协同 | 人工拉会对齐 | 自动聚合仲裁 | 故障定位从小时→分钟 |
| 高危操作 | 依赖人工把关 | 系统强制拦截 | 0 误执行,100% 安全 |
| 结论追溯 | 黑箱,说不清 | 完整证据链 | 审计合规,责任清晰 |
Harness 工程范式提供六项核心能力:
| Harness 能力 | 核心价值 | 运维场景落地 |
|---|---|---|
| 长程记忆管理 | 保持上下文连贯 | 自动装载历史告警、变更轨迹、基线配置 |
| 多智能体调度 | 统一指挥协同 | 网络/数据库/应用专家结论自动聚合仲裁 |
| 安全护栏 | 风险前置管控 | 参数校验、权限预检、高危操作人工确认 |
| 状态持久化 | 任务可恢复 | 长周期任务中断后从断点续跑 |
| 全链路可观测 | 过程可追溯 | 推理路径、工具调用、结论依据完整记录 |
| 流程编排 | 闭环驱动 | 巡检→诊断→建议→执行→沉淀自动化 |
智能运维产品封装将现有运维能力通过 Skill/Tool 原子化封装,使其能够被 Harness 的 agent loop 理解和调用:
Harness 能力:任务启动前自动装载历史上下文,执行中实时压缩,结束后固化关键发现。
应用场景:巡检时自动关联上次待关注项;诊断时自动回溯最近变更历史;报告时自动对比历史基线。
Harness 能力:复杂任务拆解为并行子任务,专业智能体分头执行,统一聚合结论、仲裁冲突。
应用场景:业务访问慢时,自动调度网络、数据库、应用专家协同诊断,输出统一根因结论。
Harness 能力:工具调用前自动校验参数合规、权限、风险等级;敏感操作强制人工确认。
应用场景:虚机回收前自动检查环境、审批工单、业务影响,确认无误才执行。
Harness 能力:中间推理状态、工具调用快照、环境反馈实时持久化,重启后从断点恢复。
应用场景:百台设备巡检中断后,重启可从断点继续,已完成检查结果不丢失。
Harness 能力:推理输入输出、工具调用参数结果、结论生成依据完整记录,支持逐层下钻。
应用场景:AI 判定异常时,可追溯监控数据时间段、基线阈值、诊断命令等完整依据链。
Harness 能力:巡检、诊断、建议、执行、沉淀串联为闭环;风险自动触发工单与责任人推送。
应用场景:巡检发现不合规,自动:生成工单→指派责任人→跟踪进度→验证效果→更新基线。
华讯网络运维产品通过四层封装架构,将现有运维能力原子化、标准化,使其能够被 Harness 的 agent loop 理解和调用:
Layer 4 - 运维场景(Scenario):面向最终用户的完整业务场景,如"设备纳管 + 备份 + 巡检"、"资源分析→建议→审批→执行→验证"。由 Harness 流程编排中枢驱动,支持多轮对话和状态管理。
Layer 3 - 运维流程(Workflow):标准化的运维流程模板,如纳管流程、备份流程、巡检流程、回收流程、扩容流程、验证流程。每个流程包含意图识别、参数追问、状态管理等能力。
Layer 2 - 运维操作(Tool):原子化的运维操作接口,如 device_onboard()、config_backup()、compliance_check()、vm_analyze()、vm_shutdown()、vm_resize()。每个操作定义 JSON Schema 输入输出,支持错误处理和回滚。
Layer 1 - 原子命令(Command):底层执行命令,包括 SSH CLI 命令(如 show version、show running-config)和 API 调用(如 VMware PowerCLI Get-VM、Set-VM、Move-VM)。
通过四层封装,华讯网络将 15 年积累的网络设备管理、云资源管理、监控告警等能力,转化为可被 Harness 驾驭的标准化 Skills,实现"老能力、新用法"。
以网络设备运维为例,华讯网络提供以下核心 Skills:
| Skill | 功能 | 封装的运维能力 |
|---|---|---|
| network-ops-flow | 设备纳管、配置备份、合规巡检、巡检修复 | Cisco/Huawei/H3C 设备 SSH 管理、配置备份、合规基线检查 |
| cloud-ops-flow | 虚机分析、资源回收、扩容缩容、成本优化 | VMware vCenter/OpenStack/AWS 虚机管理、资源监控、成本分析 |
| security-ops-flow | 合规检查、安全加固、漏洞修复、基线比对 | 安全基线检查、漏洞扫描、配置加固、合规报告生成 |
Scenario 示例:
| Scenario | 功能 | 封装方式 |
|---|---|---|
| device-onboarding | "上设备"完整流程 | 编排纳管→备份→巡检三个 Workflow,自动传递参数和状态 |
| vm-lifecycle | 虚机全生命周期管理 | 串联分析→审批→创建/扩容/回收→验证,支持中途人工介入 |
| incident-response | 故障应急响应 | 触发告警→多专家并行诊断→根因聚合→修复执行→效果验证 |
每个 Skill 的 Harness 能力映射:
| Harness 能力 | 在 Skill 中的体现 |
|---|---|
| 长程记忆 | 保存用户最近使用的设备 IP、云账号,支持"再备份一下"等模糊指令 |
| 安全护栏 | 高危操作(如虚机关机、配置变更)前强制二次确认 |
| 状态持久化 | 对话状态保存到状态文件,支持跨会话继续执行 |
| 流程编排 | 纳管完成后自动触发备份和巡检,巡检发现异常自动生成修复建议 |
| 多智能体调度 | 复杂故障自动调度网络专家、云资源专家、安全专家协同诊断 |
| 全链路可观测 | 所有工具调用、命令执行、结论生成完整记录,支持审计追溯 |

用户指令:"90 环境,巡检 10.200.0.34"
Harness 编排:
OpenClaw 输出:

客户价值:
Harness 能力体现:长程记忆、多智能体调度、安全护栏、流程编排
用户指令:"业务访问慢,排查一下"
Harness 编排:
OpenClaw 输出:

客户价值:
Harness 能力体现:多智能体调度、全链路可观测、安全护栏、流程编排
用户指令:"新到了 5 台 C9200,帮我纳管一下"
Harness 编排:
OpenClaw 输出:

客户价值:
Harness 能力体现:长程记忆(参数追问)、状态持久化、流程编排、全链路可观测
用户指令:"那几台空闲的虚机帮我回收掉"
Harness 编排:
OpenClaw 输出:

客户价值:
Harness 能力体现:安全护栏(影响评估+二次确认)、长程记忆(理解"空闲"含义)、流程编排、状态持久化
用户指令:"90 环境,10.200.90.50 到 10.200.91.100 的 80 端口通不通?"
Harness 编排:
OpenClaw 输出:

客户价值:
Harness 能力体现:长程记忆(理解"通不通"=路径分析)、多智能体调度(路由+安全协同)、安全护栏(策略变更需审批)、全链路可观测(逐跳记录完整可追溯)
