AISBench 评测工具

🚀 开始你的第一步

  • 工具安装&卸载
  • 快速入门
  • 数据集准备指南

🧭 基础教程

  • 支持的评测场景
  • 评测结果说明
  • 详细参数说明

🔬 进阶教程

  • 自定义配置文件运行AISBench
  • 服务化稳定状态性能测试
  • 请求发送速率(RPS)分布控制及可视化说明
  • 多轮对话测评指南
  • 随机合成数据集使用指南
  • 自定义数据集使用说明
  • 使用裁判模型进行测评

📐 扩展评测基准

  • 拓展多模态生成类评测基准
  • agent评测基准
    • τ²-Bench
    • SWEbench 使用指南

💪 最佳实践

  • 基于英伟达A100加速卡测评DeepSeek-R1-Distill-Qwen-14B的数学能力,100%论文复现
  • 基于昇腾800I-A2测评DeepSeek-R1数学能力,100%论文复现
  • 复现大语言模型(LLM)论文(技术报告)中的数据集测评结果(以DeepSeek R1使用的GPQA数据集为例)

❓常见问题

  • AISBench FAQ 常见问题解答
  • 错误码说明

👨‍💻 开发者指南

  • 贡献指南
  • 支持新模型后端
  • 支持新的数据集和精度评估器
  • 支持新的推理器(Inferencer)

📝 提示词工程

  • Prompt 模板
  • Meta Template
  • Prompt 概述
  • Retriever

🏷️ 其他

  • 🔜 即将推出
  • 🤝 致谢
AISBench 评测工具
  • agent评测基准
  • 查看页面源码

agent评测基准

  • τ²-Bench
    • τ²-Bench 测评基准简介
    • AISBench中快速上手 τ²-Bench 测评
    • 中断后继续执行测评
    • 单条case多次执行(pass^k)
    • 使用 TAU2-mini 采样子集
  • SWEbench 使用指南
    • 1. 功能概览
    • 2. 前置依赖
    • 3. 最小配置(先跑通再调优)
    • 4. 运行命令
    • 5. 输出结果怎么看
    • 6. 常见问题与排障(SWEB 错误码)
    • 7. 进阶建议(可选)
上一页 下一页

© 版权所有 2025, AISBench人工智能系统性能评测基准委员会。

利用 Sphinx 构建,使用的 主题 由 Read the Docs 开发.