欢迎来到 AISBench 评测工具中文教程 ✨

🌏 简介

AISBench Benchmark 是基于 OpenCompass 构建的模型评测工具,兼容 OpenCompass 的配置体系、数据集结构与模型后端实现,并在此基础上扩展了对服务化模型的支持能力。

当前,AISBench 支持两大类推理任务的评测场景:

🔍 精度测评:支持对服务化模型和本地模型在各类问答、推理基准数据集上的精度验证。

🚀 性能测评:支持对服务化模型的延迟与吞吐率评估,并可进行压测场景下的极限性能测试。

👉 推荐上手路径

为了帮助你快速上手 AISBench 评测工具,我们推荐按照以下顺序进行学习:

  • 对于想要使用 AISBench 评测工具的用户,建议先阅读 安装指南,确保环境配置正确。

  • 本教程提供的 快速入门 将引导你完成基本的精度评测配置和运行。

  • 数据集准备指南 将帮助你了解支持的数据集及其准备方法。

  • 基础教程部分将介绍 评测场景介绍评测结果说明 以及 详细参数说明 等内容,帮助你更好地理解主要的评测场景的使用。

  • 如果想要更深入地了解 AISBench 评测工具的高级用法,可以参考 进阶教程

  • 你可以参考 最佳实践 部分,了解在不同场景下使用 AISBench 评测工具的最佳实践。

  • 最后,你可以参考 常见问题 部分,解决在使用 AISBench 评测工具过程中遇到的问题。