AISBench 评测工具

🚀 开始你的第一步

工具安装&卸载
快速入门
数据集准备指南

🧭 基础教程

支持的评测场景
评测结果说明
详细参数说明

🔬 进阶教程

自定义配置文件运行AISBench
服务化稳定状态性能测试
请求发送速率(RPS)分布控制及可视化说明
多轮对话测评指南
随机合成数据集使用指南
自定义数据集使用说明
使用裁判模型进行测评

📐 扩展评测基准

拓展多模态生成类评测基准
agent评测基准
- τ²-Bench
- SWEbench 使用指南

💪 最佳实践

基于英伟达A100加速卡测评DeepSeek-R1-Distill-Qwen-14B的数学能力，100%论文复现
基于昇腾800I-A2测评DeepSeek-R1数学能力，100%论文复现
复现大语言模型（LLM）论文（技术报告）中的数据集测评结果（以DeepSeek R1使用的GPQA数据集为例）

❓常见问题

AISBench FAQ 常见问题解答
错误码说明

👨‍💻 开发者指南

贡献指南
支持新模型后端
支持新的数据集和精度评估器
支持新的推理器（Inferencer）

📝 提示词工程

Prompt 模板
Meta Template
Prompt 概述
Retriever

🏷️ 其他

🔜 即将推出
🤝 致谢

AISBench 评测工具

agent评测基准
查看页面源码

agent评测基准

τ²-Bench
SWEbench 使用指南

上一页下一页

© 版权所有 2025, AISBench人工智能系统性能评测基准委员会。

利用 Sphinx 构建，使用的主题由 Read the Docs 开发.