mirror of
https://github.com/affaan-m/everything-claude-code.git
synced 2026-03-30 21:53:28 +08:00
2.3 KiB
2.3 KiB
Comando Eval
Gerencie o fluxo de desenvolvimento orientado por evals.
Uso
/eval [define|check|report|list] [feature-name]
Definir Evals
/eval define feature-name
Crie uma nova definição de eval:
- Crie
.claude/evals/feature-name.mdcom o template:
## EVAL: feature-name
Created: $(date)
### Capability Evals
- [ ] [Description of capability 1]
- [ ] [Description of capability 2]
### Regression Evals
- [ ] [Existing behavior 1 still works]
- [ ] [Existing behavior 2 still works]
### Success Criteria
- pass@3 > 90% for capability evals
- pass^3 = 100% for regression evals
- Peça ao usuário para preencher os critérios específicos
Verificar Evals
/eval check feature-name
Rode evals para uma feature:
- Leia a definição de eval em
.claude/evals/feature-name.md - Para cada eval de capability:
- Tente verificar o critério
- Registre PASS/FAIL
- Salve tentativa em
.claude/evals/feature-name.log
- Para cada eval de regressão:
- Rode os testes relevantes
- Compare com baseline
- Registre PASS/FAIL
- Reporte status atual:
EVAL CHECK: feature-name
========================
Capability: X/Y passing
Regression: X/Y passing
Status: IN PROGRESS / READY
Relatório de Evals
/eval report feature-name
Gere relatório completo de eval:
EVAL REPORT: feature-name
=========================
Generated: $(date)
CAPABILITY EVALS
----------------
[eval-1]: PASS (pass@1)
[eval-2]: PASS (pass@2) - required retry
[eval-3]: FAIL - see notes
REGRESSION EVALS
----------------
[test-1]: PASS
[test-2]: PASS
[test-3]: PASS
METRICS
-------
Capability pass@1: 67%
Capability pass@3: 100%
Regression pass^3: 100%
NOTES
-----
[Any issues, edge cases, or observations]
RECOMMENDATION
--------------
[SHIP / NEEDS WORK / BLOCKED]
Listar Evals
/eval list
Mostre todas as definições de eval:
EVAL DEFINITIONS
================
feature-auth [3/5 passing] IN PROGRESS
feature-search [5/5 passing] READY
feature-export [0/4 passing] NOT STARTED
Argumentos
$ARGUMENTS:
define <name>- Criar nova definição de evalcheck <name>- Rodar e verificar evalsreport <name>- Gerar relatório completolist- Mostrar todos os evalsclean- Remover logs antigos de eval (mantém as últimas 10 execuções)