AISBench 评测工具
🚀 开始你的第一步
工具安装&卸载
快速入门
数据集准备指南
🧭 基础教程
支持的评测场景
评测结果说明
详细参数说明
🔬 进阶教程
自定义配置文件运行AISBench
服务化稳定状态性能测试
请求发送速率(RPS)分布控制及可视化说明
多轮对话测评指南
随机合成数据集使用指南
自定义数据集使用说明
使用裁判模型进行测评
📐 扩展评测基准
拓展多模态生成类评测基准
agent评测基准
τ²-Bench
SWEbench 使用指南
💪 最佳实践
基于英伟达A100加速卡测评DeepSeek-R1-Distill-Qwen-14B的数学能力,100%论文复现
基于昇腾800I-A2测评DeepSeek-R1数学能力,100%论文复现
复现大语言模型(LLM)论文(技术报告)中的数据集测评结果(以DeepSeek R1使用的GPQA数据集为例)
❓常见问题
AISBench FAQ 常见问题解答
错误码说明
👨💻 开发者指南
贡献指南
支持新模型后端
支持新的数据集和精度评估器
支持新的推理器(Inferencer)
📝 提示词工程
Prompt 模板
Meta Template
Prompt 概述
Retriever
🏷️ 其他
🔜 即将推出
🤝 致谢
AISBench 评测工具
agent评测基准
查看页面源码
agent评测基准
τ²-Bench
τ²-Bench 测评基准简介
AISBench中快速上手 τ²-Bench 测评
中断后继续执行测评
单条case多次执行(pass^k)
使用 TAU2-mini 采样子集
SWEbench 使用指南
1. 功能概览
2. 前置依赖
3. 最小配置(先跑通再调优)
4. 运行命令
5. 输出结果怎么看
6. 常见问题与排障(SWEB 错误码)
7. 进阶建议(可选)