Files
2026-03-22 15:39:24 -07:00

123 lines
2.1 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# Eval 命令
管理基于评估的开发工作流。
## 用法
`/eval [define|check|report|list] [feature-name]`
## 定义评估
`/eval define feature-name`
创建新的评估定义:
1. 使用模板创建 `.claude/evals/feature-name.md`
```markdown
## EVAL: 功能名称
创建于: $(date)
### 能力评估
- [ ] [能力 1 的描述]
- [ ] [能力 2 的描述]
### 回归评估
- [ ] [现有行为 1 仍然有效]
- [ ] [现有行为 2 仍然有效]
### 成功标准
- 能力评估的 pass@3 > 90%
- 回归评估的 pass^3 = 100%
```
2. 提示用户填写具体标准
## 检查评估
`/eval check feature-name`
为功能运行评估:
1.`.claude/evals/feature-name.md` 读取评估定义
2. 对于每个能力评估:
* 尝试验证标准
* 记录 通过/失败
*`.claude/evals/feature-name.log` 中记录尝试
3. 对于每个回归评估:
* 运行相关测试
* 与基线比较
* 记录 通过/失败
4. 报告当前状态:
```
EVAL CHECK: feature-name
========================
功能X/Y 通过
回归测试X/Y 通过
状态:进行中 / 就绪
```
## 报告评估
`/eval report feature-name`
生成全面的评估报告:
```
EVAL REPORT: feature-name
=========================
生成时间: $(date)
能力评估
----------------
[eval-1]: 通过 (pass@1)
[eval-2]: 通过 (pass@2) - 需要重试
[eval-3]: 失败 - 参见备注
回归测试
----------------
[test-1]: 通过
[test-2]: 通过
[test-3]: 通过
指标
-------
能力 pass@1: 67%
能力 pass@3: 100%
回归 pass^3: 100%
备注
-----
[任何问题、边界情况或观察结果]
建议
--------------
[SHIP / NEEDS WORK / BLOCKED]
```
## 列出评估
`/eval list`
显示所有评估定义:
```
功能模块定义
================
feature-auth [3/5 通过] 进行中
feature-search [5/5 通过] 就绪
feature-export [0/4 通过] 未开始
```
## 参数
$ARGUMENTS:
* `define <name>` - 创建新的评估定义
* `check <name>` - 运行并检查评估
* `report <name>` - 生成完整报告
* `list` - 显示所有评估
* `clean` - 删除旧的评估日志(保留最近 10 次运行)