Files
everything-claude-code/docs/zh-CN/skills/enterprise-agent-ops/SKILL.md
zdoc.app abcf38b085 docs(zh-CN): sync Chinese docs with latest upstream changes (#341)
* docs(zh-CN): sync Chinese docs with latest upstream changes

* docs(zh-CN): update link

---------

Co-authored-by: neo <neo.dowithless@gmail.com>
2026-03-07 14:48:02 -08:00

1.1 KiB

name, description, origin
name description origin
enterprise-agent-ops 通过可观测性、安全边界和生命周期管理来操作长期运行的代理工作负载。 ECC

企业级智能体运维

使用此技能用于需要超越单次 CLI 会话操作控制的云托管或持续运行的智能体系统。

运维领域

  1. 运行时生命周期(启动、暂停、停止、重启)
  2. 可观测性(日志、指标、追踪)
  3. 安全控制(作用域、权限、紧急停止开关)
  4. 变更管理(发布、回滚、审计)

基线控制

  • 不可变的部署工件
  • 最小权限凭证
  • 环境级别的密钥注入
  • 硬性超时和重试预算
  • 高风险操作的审计日志

需跟踪的指标

  • 成功率
  • 每项任务的平均重试次数
  • 恢复时间
  • 每项成功任务的成本
  • 故障类别分布

事故处理模式

当故障激增时:

  1. 冻结新发布
  2. 捕获代表性追踪数据
  3. 隔离故障路径
  4. 应用最小的安全变更进行修补
  5. 运行回归测试 + 安全检查
  6. 逐步恢复

部署集成

此技能可与以下工具配合使用:

  • PM2 工作流
  • systemd 服务
  • 容器编排器
  • CI/CD 门控