エージェント評価スキル 再現可能なタスクでコーディングエージェントをヘッドツーヘッドで比較するための軽量 CLI ツールです。「どのコーディングエージェントが最適か?」という比較はすべて感覚に頼りがちです — このツールはそれを体系化します。 起動タイミング - 自分のコードベースでコーディングエージェント(Claude Code、Aider、Codex など)を比較する - 新しいツールやモデルを採用する前にエージェントパフォーマンスを測定する - エージェントがモデルやツールを更新した際にリグレッションチェックを実行する - チームにデータに基づいたエージェント選択の判断を提供する インストール 注意: agent-eval はソースを確認した後、リポジトリからインストールしてください。 コアコンセプト YAML タスク定義 タスクを宣言的に定義します。各タスクは何をするか、どのファイルを操作するか、成功をどう判定するかを指定します: Git ワークツリー分離 各エージェント実行は独自の git ワークツリーを取得します — Docker 不要。これにより再現性の分離が提供され、エージェントが互いに干渉したりベースリポジトリを破壊したりしません。 収集メトリクス | メトリクス | 測定内容 | |--------|-----------------| | 合格率 | エージ…