--- name: enterprise-agent-ops description: 通过可观测性、安全边界和生命周期管理来操作长期运行的代理工作负载。 origin: ECC --- # 企业级智能体运维 使用此技能用于需要超越单次 CLI 会话操作控制的云托管或持续运行的智能体系统。 ## 运维领域 1. 运行时生命周期(启动、暂停、停止、重启) 2. 可观测性(日志、指标、追踪) 3. 安全控制(作用域、权限、紧急停止开关) 4. 变更管理(发布、回滚、审计) ## 基线控制 * 不可变的部署工件 * 最小权限凭证 * 环境级别的密钥注入 * 硬性超时和重试预算 * 高风险操作的审计日志 ## 需跟踪的指标 * 成功率 * 每项任务的平均重试次数 * 恢复时间 * 每项成功任务的成本 * 故障类别分布 ## 事故处理模式 当故障激增时: 1. 冻结新发布 2. 捕获代表性追踪数据 3. 隔离故障路径 4. 应用最小的安全变更进行修补 5. 运行回归测试 + 安全检查 6. 逐步恢复 ## 部署集成 此技能可与以下工具配合使用: * PM2 工作流 * systemd 服务 * 容器编排器 * CI/CD 门控