咨询热线

400-820-5820

加入我们

免费下载

请填写以下信息获取免费下载资源

  • 公司名称

    *
  • 姓名

    *
  • 职务

    *
  • 电子邮箱

    *
  • 手机

    *
  • 验证码

    获取验证码
  • 公司名称

    *
  • 姓名

    *
  • 职务

    *
  • 电子邮箱

    *
  • 手机

    *
  • 验证码

    获取验证码

留言反馈

请填写以下信息反馈问题或建议

  • 公司名称

    *
  • 姓名

    *
  • 职务

  • 电子邮箱

    *
  • 手机

    *
  • 反馈内容

  • 验证码

    获取验证码
2026-04-20
11

驾驭工程下的 AIOps

作者:程寅 王俊刚

引言

凌晨 2 点,核心交换机突发告警。运维工程师睡眼惺忪地爬起来,先登录监控平台看告警详情,再打开终端 SSH 到设备上敲一堆 show 命令,翻日志、对配置、查邻居……一通折腾下来半小时过去了,睡意全无。

这还不算完。第二天领导问"昨晚那台设备最近有没有变更过",他只能翻聊天记录和邮件,去问当时做变更的同事。如果同事正好休假,排查链路就断了。

这是传统运维的日常——工具不少,但人就是得在各个环节之间来回切换,像"胶水"一样把所有碎片串起来。

后来有了"AI 运维"——说白了,就是在后台系统外面套了个聊天框。刚拿 demo 给客户看的时候确实惊艳:"一句话就能查设备状态,太牛了!"可真正放到生产环境里,问题就来了。

让 AI 巡检 200 台设备。前 50 台跑得好好的,中间网络抖了一下断了连接,等重新连上,AI 已经不记得前面查过什么了,只能从头再来。前面 50 台的检查结果白白丢了。长周期任务"失忆",是 demo 到生产最容易翻车的地方。

跟 AI 说"把有问题的端口关掉"。AI 没确认是哪个端口、关了对业务有什么影响,直接 shutdown 了核心链路的接口。等发现的时候,业务已经断了 20 分钟。智能体不知道"能做"和"该做"之间的区别,缺的是安全边界和上下文判断。

问题根源不在模型,而在工程框架。大模型擅长"推理",生产环境需要"可控"。填补这道鸿沟,需要Harness Engineering(驾驭工程)

一、破题之道:Harness 工程范式 + 智能运维产品封装

1.1 AI 运维的四大痛点

痛点表现根源
上下文断裂每次诊断从零开始缺乏历史上下文管理
协同缺失多专家结论冲突缺乏统一调度机制
过程不透明结论依据说不清缺乏推理链路记录
风险失控可能执行高危指令缺乏安全校验机制

1.2 Harness vs 传统 AI 运维

能力无 Harness有 Harness客户价值
长周期任务中断后从头开始断点续跑百台设备巡检不白跑
多专家协同人工拉会对齐自动聚合仲裁故障定位从小时→分钟
高危操作依赖人工把关系统强制拦截0 误执行,100% 安全
结论追溯黑箱,说不清完整证据链审计合规,责任清晰

1.3 解决路径

Harness 工程范式提供六项核心能力:

Harness 能力核心价值运维场景落地
长程记忆管理保持上下文连贯自动装载历史告警、变更轨迹、基线配置
多智能体调度统一指挥协同网络/数据库/应用专家结论自动聚合仲裁
安全护栏风险前置管控参数校验、权限预检、高危操作人工确认
状态持久化任务可恢复长周期任务中断后从断点续跑
全链路可观测过程可追溯推理路径、工具调用、结论依据完整记录
流程编排闭环驱动巡检→诊断→建议→执行→沉淀自动化

智能运维产品封装将现有运维能力通过 Skill/Tool 原子化封装,使其能够被 Harness 的 agent loop 理解和调用:

  • 网络设备管理:配置备份、合规巡检、日志分析
  • 云资源管理:虚机创建、启停、扩容、迁移
  • 监控告警:性能指标采集、告警事件接收、趋势报表
Harness 工程范式 + 智能运维产品封装 = 可控可用的 AIOps


二、Harness 加持的 AIOps

❶ 长程记忆管理

Harness 能力:任务启动前自动装载历史上下文,执行中实时压缩,结束后固化关键发现。

应用场景:巡检时自动关联上次待关注项;诊断时自动回溯最近变更历史;报告时自动对比历史基线。

❷ 多智能体调度

Harness 能力:复杂任务拆解为并行子任务,专业智能体分头执行,统一聚合结论、仲裁冲突。

应用场景:业务访问慢时,自动调度网络、数据库、应用专家协同诊断,输出统一根因结论。

❸ 安全护栏

Harness 能力:工具调用前自动校验参数合规、权限、风险等级;敏感操作强制人工确认。

应用场景:虚机回收前自动检查环境、审批工单、业务影响,确认无误才执行。

❹ 状态持久化

Harness 能力:中间推理状态、工具调用快照、环境反馈实时持久化,重启后从断点恢复。

应用场景:百台设备巡检中断后,重启可从断点继续,已完成检查结果不丢失。

❺ 全链路可观测

Harness 能力:推理输入输出、工具调用参数结果、结论生成依据完整记录,支持逐层下钻。

应用场景:AI 判定异常时,可追溯监控数据时间段、基线阈值、诊断命令等完整依据链。

❻ 流程编排

Harness 能力:巡检、诊断、建议、执行、沉淀串联为闭环;风险自动触发工单与责任人推送。

应用场景:巡检发现不合规,自动:生成工单→指派责任人→跟踪进度→验证效果→更新基线。


三、华讯智能运维产品的 Harness 化封装

3.1 封装理念

华讯网络运维产品通过四层封装架构,将现有运维能力原子化、标准化,使其能够被 Harness 的 agent loop 理解和调用:

Layer 4 - 运维场景(Scenario):面向最终用户的完整业务场景,如"设备纳管 + 备份 + 巡检"、"资源分析→建议→审批→执行→验证"。由 Harness 流程编排中枢驱动,支持多轮对话和状态管理。

Layer 3 - 运维流程(Workflow):标准化的运维流程模板,如纳管流程、备份流程、巡检流程、回收流程、扩容流程、验证流程。每个流程包含意图识别、参数追问、状态管理等能力。

Layer 2 - 运维操作(Tool):原子化的运维操作接口,如 device_onboard()config_backup()compliance_check()vm_analyze()vm_shutdown()vm_resize()。每个操作定义 JSON Schema 输入输出,支持错误处理和回滚。

Layer 1 - 原子命令(Command):底层执行命令,包括 SSH CLI 命令(如 show versionshow running-config)和 API 调用(如 VMware PowerCLI Get-VMSet-VMMove-VM)。

通过四层封装,华讯网络将 15 年积累的网络设备管理、云资源管理、监控告警等能力,转化为可被 Harness 驾驭的标准化 Skills,实现"老能力、新用法"。

3.2 封装示例

以网络设备运维为例,华讯网络提供以下核心 Skills:

Skill功能封装的运维能力
network-ops-flow设备纳管、配置备份、合规巡检、巡检修复Cisco/Huawei/H3C 设备 SSH 管理、配置备份、合规基线检查
cloud-ops-flow虚机分析、资源回收、扩容缩容、成本优化VMware vCenter/OpenStack/AWS 虚机管理、资源监控、成本分析
security-ops-flow合规检查、安全加固、漏洞修复、基线比对安全基线检查、漏洞扫描、配置加固、合规报告生成

Scenario 示例

Scenario功能封装方式
device-onboarding"上设备"完整流程编排纳管→备份→巡检三个 Workflow,自动传递参数和状态
vm-lifecycle虚机全生命周期管理串联分析→审批→创建/扩容/回收→验证,支持中途人工介入
incident-response故障应急响应触发告警→多专家并行诊断→根因聚合→修复执行→效果验证

每个 Skill 的 Harness 能力映射

Harness 能力在 Skill 中的体现
长程记忆保存用户最近使用的设备 IP、云账号,支持"再备份一下"等模糊指令
安全护栏高危操作(如虚机关机、配置变更)前强制二次确认
状态持久化对话状态保存到状态文件,支持跨会话继续执行
流程编排纳管完成后自动触发备份和巡检,巡检发现异常自动生成修复建议
多智能体调度复杂故障自动调度网络专家、云资源专家、安全专家协同诊断
全链路可观测所有工具调用、命令执行、结论生成完整记录,支持审计追溯

3.3 Harness 架构全景
image.png

四、Harness 运维场景实战

场景一:智能巡检——100 台设备,45 分钟完成

用户指令:"90 环境,巡检 10.200.0.34"

Harness 编排

启程前 → 自动载入历史告警、变更轨迹、上次待关注项 ↓ 执行中 → 网络/安全/性能/日志专家并行检查 ↓ 校验层 → 高危操作挂起,等待人工确认 ↓ 结束后 → 生成工单、指派责任人、预约下次巡检

OpenClaw 输出

微信图片_20260421135951_351_2.png

客户价值

  • 效率提升 5 倍:100 台设备巡检从 4 小时→45 分钟
  • 漏检率下降 80%:Harness 自动关联历史基线,异常识别更精准
  • 0 误操作:高危操作 100% 拦截,全部需人工确认

Harness 能力体现:长程记忆、多智能体调度、安全护栏、流程编排


场景二:故障诊断——从小时级到分钟级

用户指令:"业务访问慢,排查一下"

Harness 编排

任务拆解 → 网络/数据库/应用/云资源专家并行诊断 ↓ 结论聚合 → 统一分析,输出根因 + 证据链 ↓ 安全校验 → 高危建议挂起,需人工审批

OpenClaw 输出

微信图片_20260421140055_352_2.png

客户价值

  • 故障定位时间:2 小时→5 分钟
  • MTTR 下降 75%:多智能体并行诊断,自动聚合结论
  • 误判率下降 60%:证据链完整,结论可追溯

Harness 能力体现:多智能体调度、全链路可观测、安全护栏、流程编排


场景三:设备纳管——上设备,一键到位

用户指令:"新到了 5 台 C9200,帮我纳管一下"

Harness 编排

意图确认 → 自动追问缺失参数(IP、凭证、机房位置) ↓ 纳管执行 → 批量 SSH 连接、信息采集、CMDB 录入 ↓ 自动触发 → 纳管完成后立即执行配置备份 + 首次巡检 ↓ 结果汇总 → 输出纳管报告,标记异常设备

OpenClaw 输出

微信图片_20260421140257_353_2.png

客户价值

  • 纳管效率提升 10 倍:5 台设备从 30 分钟手工操作→3 分钟自动完成
  • 流程闭环:纳管→备份→巡检自动串联,不留遗漏
  • 异常自动标记:失败设备自动标注,无需人工逐一核对

Harness 能力体现:长程记忆(参数追问)、状态持久化、流程编排、全链路可观测


场景四:虚机资源回收——该省的不能省

用户指令:"那几台空闲的虚机帮我回收掉"

Harness 编排

意图解析 → 识别"空闲"标准(CPU<5%, 内存<10%,>30天) ↓ 资源扫描 → 扫描目标环境,匹配符合条件的虚机 ↓ 影响评估 → 检查是否关联业务、是否有未备份数据 ↓ 二次确认 → 列出待回收清单,等待人工审批 ↓ 执行回收 → 分批关闭→快照→删除,每步检查

OpenClaw 输出

image.png

客户价值

  • 成本节约:自动识别闲置资源,释放 CPU/内存/存储成本
  • 0 误删:回收前自动评估业务关联,带 DNS 解析的虚机自动拦截
  • 分批安全执行:快照→关闭→删除,每步可回滚

Harness 能力体现:安全护栏(影响评估+二次确认)、长程记忆(理解"空闲"含义)、流程编排、状态持久化


场景五:防火墙路径分析——谁拦了我的流量

用户指令:"90 环境,10.200.90.50 到 10.200.91.100 的 80 端口通不通?"

Harness 编排

意图解析 → 提取源 IP、目标 IP、协议、端口 ↓ 路径计算 → 查路由表、ACL、NAT、防火墙策略,计算完整路径 ↓ 策略检查 → 逐跳检查每道防火墙的 permit/deny 规则 ↓ 结果输出 → 通/不通、在哪一跳被拦、具体策略号

OpenClaw 输出

image.png

客户价值

  • 排查时间:1 小时→30 秒:人工逐台查 ACL vs 自动路径计算+逐跳分析
  • 精准定位:不仅告诉你通不通,还告诉你在哪一跳被拦具体哪条策略
  • 修复建议:自动生成放行策略,附带审批提醒,不走"先改后审"的危险路

Harness 能力体现:长程记忆(理解"通不通"=路径分析)、多智能体调度(路由+安全协同)、安全护栏(策略变更需审批)、全链路可观测(逐跳记录完整可追溯)

image.png

评论

携手共启数字化转型新征程

欢迎与我们交流,共同探索适合您的转型路径。

立即交谈
  • 公众号

  • 服务号

  • 视频号

我们随时准备为您提供帮助

  • 咨询热线

    400-820-5-820