AISBench 评测工具
🚀 开始你的第一步
工具安装&卸载
快速入门
🧭 基础教程
支持的评测场景
评测结果说明
精度评测场景:评估指标解析
性能测评结果说明
性能测试可视化并发图使用说明
详细参数说明
🔬 进阶教程
自定义配置文件运行AISBench
服务化稳定状态性能测试
请求发送速率(RPS)分布控制及可视化说明
多轮对话测评指南
随机合成数据集使用指南
自定义数据集使用说明
💪 最佳实践
基于英伟达A100加速卡测评DeepSeek-R1-Distill-Qwen-14B的数学能力,100%论文复现
基于昇腾800I-A2测评DeepSeek-R1数学能力,100%论文复现
❓常见问题
AISBench FAQ 常见问题解答
错误码说明
🏷️ 其他
🔜 即将推出
🤝 致谢
AISBench 评测工具
评测结果说明
查看页面源码
评测结果说明
精度评测场景:评估指标解析
一、计算公式中
n
、
k
与API配置文件中
num_return_sequences
的三者关系
二、pass@k, cons@k, avg@n 的定义与关系
三、
accuracy
(n
runs
average)
与
avg@n
的差异分析
性能测评结果说明
单个推理请求性能输出结果
端到端性能输出结果
性能测试可视化并发图使用说明
一、基础交互操作
二、高级功能使用
三、跨平台支持说明
四、常见问题解答