Files
everything-claude-code/docs/zh-CN/skills/enterprise-agent-ops/SKILL.md
zdoc.app abcf38b085 docs(zh-CN): sync Chinese docs with latest upstream changes (#341)
* docs(zh-CN): sync Chinese docs with latest upstream changes

* docs(zh-CN): update link

---------

Co-authored-by: neo <neo.dowithless@gmail.com>
2026-03-07 14:48:02 -08:00

53 lines
1.1 KiB
Markdown

---
name: enterprise-agent-ops
description: 通过可观测性、安全边界和生命周期管理来操作长期运行的代理工作负载。
origin: ECC
---
# 企业级智能体运维
使用此技能用于需要超越单次 CLI 会话操作控制的云托管或持续运行的智能体系统。
## 运维领域
1. 运行时生命周期(启动、暂停、停止、重启)
2. 可观测性(日志、指标、追踪)
3. 安全控制(作用域、权限、紧急停止开关)
4. 变更管理(发布、回滚、审计)
## 基线控制
* 不可变的部署工件
* 最小权限凭证
* 环境级别的密钥注入
* 硬性超时和重试预算
* 高风险操作的审计日志
## 需跟踪的指标
* 成功率
* 每项任务的平均重试次数
* 恢复时间
* 每项成功任务的成本
* 故障类别分布
## 事故处理模式
当故障激增时:
1. 冻结新发布
2. 捕获代表性追踪数据
3. 隔离故障路径
4. 应用最小的安全变更进行修补
5. 运行回归测试 + 安全检查
6. 逐步恢复
## 部署集成
此技能可与以下工具配合使用:
* PM2 工作流
* systemd 服务
* 容器编排器
* CI/CD 门控