# Evalコマンド

評価駆動開発ワークフローを管理します。

## 使用方法

`/eval [define|check|report|list] [機能名]`

## Evalの定義

`/eval define 機能名`

新しい評価定義を作成します。

1. テンプレートを使用して `.claude/evals/機能名.md` を作成:

```markdown
## EVAL: 機能名
作成日: $(date)

### 機能評価
- [ ] [機能1の説明]
- [ ] [機能2の説明]

### 回帰評価
- [ ] [既存の動作1が正常に動作する]
- [ ] [既存の動作2が正常に動作する]

### 成功基準
- 機能評価: pass@3 > 90%
- 回帰評価: pass^3 = 100%
```

2. ユーザーに具体的な基準を記入するよう促す

## Evalのチェック

`/eval check 機能名`

機能の評価を実行します。

1. `.claude/evals/機能名.md` から評価定義を読み込む
2. 各機能評価について:
   - 基準の検証を試行
   - PASS/FAILを記録
   - `.claude/evals/機能名.log` に試行を記録
3. 各回帰評価について:
   - 関連するテストを実行
   - ベースラインと比較
   - PASS/FAILを記録
4. 現在のステータスを報告:

```
EVAL CHECK: 機能名
========================
機能評価: X/Y 合格
回帰評価: X/Y 合格
ステータス: 進行中 / 準備完了
```

## Evalの報告

`/eval report 機能名`

包括的な評価レポートを生成します。

```
EVAL REPORT: 機能名
=========================
生成日時: $(date)

機能評価
----------------
[eval-1]: PASS (pass@1)
[eval-2]: PASS (pass@2) - 再試行が必要でした
[eval-3]: FAIL - 備考を参照

回帰評価
----------------
[test-1]: PASS
[test-2]: PASS
[test-3]: PASS

メトリクス
-------
機能評価 pass@1: 67%
機能評価 pass@3: 100%
回帰評価 pass^3: 100%

備考
-----
[問題、エッジケース、または観察事項]

推奨事項
--------------
[リリース可 / 要修正 / ブロック中]
```

## Evalのリスト表示

`/eval list`

すべての評価定義を表示します。

```
EVAL 定義一覧
================
feature-auth      [3/5 合格] 進行中
feature-search    [5/5 合格] 準備完了
feature-export    [0/4 合格] 未着手
```

## 引数

$ARGUMENTS:
- `define <名前>` - 新しい評価定義を作成
- `check <名前>` - 評価を実行してチェック
- `report <名前>` - 完全なレポートを生成
- `list` - すべての評価を表示
- `clean` - 古い評価ログを削除（最新10件を保持）