openbench — Skillopedia

openBench — Eval 基准测试运行评估套件，输出 pass rate、延迟、质量指标。快速前置 - 需在 elephant.ai repo 根目录运行 - 需要 Go toolchain（ in PATH）命令参数 | 参数 | 说明 | |------|------| | | 评估套件名，默认（对应）| | | 每个 case 超时秒数，默认 300 | | | 最多运行 N 个 case，默认 10 | | | 结果输出目录，默认 | 套件说明 | 套件 | 命令 | 说明 | |------|------|------| | | | 快速回归， 10 cases | | | | 完整评估，包含 agent eval | ---