agent-eval — Skillopedia

エージェント評価スキル再現可能なタスクでコーディングエージェントをヘッドツーヘッドで比較するための軽量 CLI ツールです。「どのコーディングエージェントが最適か？」という比較はすべて感覚に頼りがちです — このツールはそれを体系化します。起動タイミング - 自分のコードベースでコーディングエージェント（Claude Code、Aider、Codex など）を比較する - 新しいツールやモデルを採用する前にエージェントパフォーマンスを測定する - エージェントがモデルやツールを更新した際にリグレッションチェックを実行する - チームにデータに基づいたエージェント選択の判断を提供するインストール注意: agent-eval はソースを確認した後、リポジトリからインストールしてください。コアコンセプト YAML タスク定義タスクを宣言的に定義します。各タスクは何をするか、どのファイルを操作するか、成功をどう判定するかを指定します： Git ワークツリー分離各エージェント実行は独自の git ワークツリーを取得します — Docker 不要。これにより再現性の分離が提供され、エージェントが互いに干渉したりベースリポジトリを破壊したりしません。収集メトリクス | メトリクス | 測定内容 | |--------|-----------------| | 合格率 | エージ…