mirror of
https://github.com/affaan-m/everything-claude-code.git
synced 2026-03-30 13:43:26 +08:00
* docs(zh-CN): sync Chinese docs with latest upstream changes * docs(zh-CN): update link --------- Co-authored-by: neo <neo.dowithless@gmail.com>
1.1 KiB
1.1 KiB
name, description, origin
| name | description | origin |
|---|---|---|
| enterprise-agent-ops | 通过可观测性、安全边界和生命周期管理来操作长期运行的代理工作负载。 | ECC |
企业级智能体运维
使用此技能用于需要超越单次 CLI 会话操作控制的云托管或持续运行的智能体系统。
运维领域
- 运行时生命周期(启动、暂停、停止、重启)
- 可观测性(日志、指标、追踪)
- 安全控制(作用域、权限、紧急停止开关)
- 变更管理(发布、回滚、审计)
基线控制
- 不可变的部署工件
- 最小权限凭证
- 环境级别的密钥注入
- 硬性超时和重试预算
- 高风险操作的审计日志
需跟踪的指标
- 成功率
- 每项任务的平均重试次数
- 恢复时间
- 每项成功任务的成本
- 故障类别分布
事故处理模式
当故障激增时:
- 冻结新发布
- 捕获代表性追踪数据
- 隔离故障路径
- 应用最小的安全变更进行修补
- 运行回归测试 + 安全检查
- 逐步恢复
部署集成
此技能可与以下工具配合使用:
- PM2 工作流
- systemd 服务
- 容器编排器
- CI/CD 门控