# 数据集准备指南

## 支持数据集类型

AISBench Benchmark当前支持的数据集类型如下：

1. [开源数据集](#开源数据集)，涵盖通用语言理解（如 ARC、SuperGLUE_BoolQ、MMLU）、数学推理（如 GSM8K、AIME2024、Math）、代码生成（如 HumanEval、MBPP、LiveCodeBench）、文本摘要（如 XSum、LCSTS）以及多模态任务（如 TextVQA、VideoBench、VocalSound）等多个方向，满足对语言模型在多任务、多模态、多语言等能力的全面评估需求。
2. [随机合成数据集](#随机合成数据集)，支持指定输入输出序列长度和请求数目，适用于对于序列分布场景和数据规模存在要求的性能测试场景。
3. [自定义数据集](#自定义数据集)，支持将用户自定义的数据内容转换成固定格式的数据进行测评，适用于定制化精度和性能测试场景。

## 开源数据集

开源数据集指的是社区广泛使用、公开可获取的数据集。它们通常用于模型训练、验证和比较不同算法的效果。AISBench Benchmark支持多个主流开源数据集，便于用户快速进行标准化测试，详细介绍和获取方式如下：

### LLM类数据集

| 数据集名称      | 分类                     | 详细介绍&获取方式                                                                                                            |
| --------------- | ------------------------ | ---------------------------------------------------------------------------------------------------------------------------- |
| DEMO            | 数学推理                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/demo/README.md)            |
| ARC_c           | 推理（常识+科学）        | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/ARC_c/README.md)           |
| ARC_e           | 推理（常识+科学）        | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/ARC_e/README.md)           |
| SuperGLUE_BoolQ | 自然语言理解（问答）     | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/SuperGLUE_BoolQ/README.md) |
| agieval         | 综合考试/推理            | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/agieval/README.md)         |
| aime2024        | 数学推理                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/aime2024/README.md)        |
| aime2025        | 数学推理                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/aime2025/README.md)        |
| aime2026        | 数学推理                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/aime2026/README.md)        |
| bbh             | 多任务（Big-Bench Hard） | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/bbh/README.md)             |
| cmmlu           | 中文理解/知识问答        | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/cmmlu/README.md)           |
| ceval           | 中文职业考试             | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/ceval/README.md)           |
| drop            | 阅读理解+推理            | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/drop/README.md)            |
| gsm8k           | 数学推理                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/gsm8k/README.md)           |
| gpqa            | 知识问答                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/gpqa/README.md)            |
| hellaswag       | 常识推理                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/hellaswag/README.md)       |
| humaneval       | 编程（代码生成+测试）    | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/humaneval/README.md)       |
| humanevalx      | 编程（多语言）           | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/humanevalx/README.md)      |
| ifeval          | 编程（函数生成）         | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/ifeval/README.md)          |
| lambada         | 长文本完形填空           | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/lambada/README.md)         |
| lcsts           | 中文文本摘要             | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/lcsts/README.md)           |
| livecodebench   | 编程（实时代码）         | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/livecodebench/README.md)   |
| longbench       | 长序列                   | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/longbench/README.md)       |
| longbenchv2     | 长序列                   | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/longbenchv2/README.md)     |
| math            | 高级数学推理             | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/math/README.md)            |
| mbpp            | 编程（Python）           | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mbpp/README.md)            |
| mgsm            | 多语言数学推理           | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mgsm/README.md)            |
| mmlu            | 多学科理解（英文）       | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mmlu/README.md)            |
| mmlu_pro        | 多学科理解（专业版）     | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mmlu_pro/README.md)        |
| needlebench_v2  | 长序列                   | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/needlebench_v2/README.md)  |
| piqa            | 物理常识推理             | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/piqa/README.md)            |
| siqa            | 社会常识推理             | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/siqa/README.md)            |
| triviaqa        | 知识问答                 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/triviaqa/README.md)        |
| winogrande      | 常识推理（代词消解）     | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/winogrande/README.md)      |
| Xsum            | 文本生成（摘要）         | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/Xsum/README.md)            |
| BFCL            | 函数调用能力评估         | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/BFCL/README.md)            |
| FewCLUE_bustm   | 短文本语义匹配           | [详细介绍](https://github.com/AISBench/benchmark/blob/master/ais_bench/benchmark/configs/datasets/FewCLUE_bustm/README.md)   |
| FewCLUE_chid    | 阅读理解填空             | [详细介绍](https://github.com/AISBench/benchmark/blob/master/ais_bench/benchmark/configs/datasets/FewCLUE_chid/README.md)    |
| FewCLUE_cluewsc | 代词消歧                 | [详细介绍](https://github.com/AISBench/benchmark/blob/master/ais_bench/benchmark/configs/datasets/FewCLUE_cluewsc/README.md) |
| FewCLUE_csl     | 关键词识别               | [详细介绍](https://github.com/AISBench/benchmark/blob/master/ais_bench/benchmark/configs/datasets/FewCLUE_csl/README.md)     |
| FewCLUE_eprstmt | 情感分析                 | [详细介绍](https://github.com/AISBench/benchmark/blob/master/ais_bench/benchmark/configs/datasets/FewCLUE_eprstmt/README.md) |
| FewCLUE_tnews   | 新闻分类                 | [详细介绍](https://github.com/AISBench/benchmark/blob/master/ais_bench/benchmark/configs/datasets/FewCLUE_tnews/README.md)   |
| dapo-math-17k   | 数学推理（RL评估）       | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/dapo_math/README.md)       |

### 多模态类数据集

| 数据集名称   | 分类                         | 详细介绍&获取方式                                                                                                         |
| ------------ | ---------------------------- | ------------------------------------------------------------------------------------------------------------------------- |
| textvqa      | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/textvqa/README.md)      |
| videobench   | 多模态理解（视频）           | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/videobench/README.md)   |
| vocalsound   | 多模态理解（音频）           | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/vocalsound/README.md)   |
| Omnidocbench | 图片OCR（图+文）             | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/omnidocbench/README.md) |
| MMMU         | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mmmu/README.md)         |
| MMMU_Pro     | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mmmu_pro/README.md)     |
| InfoVQA      | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/infovqa/README.md)      |
| DocVQA       | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/docvqa/README.md)       |
| MMStar       | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mmstar/README.md)       |
| Video-MME    | 多模态理解（视频+文）        | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/videomme/README.md)     |
| OCRBench_v2  | 多模态理解（图+文，OCR评估） | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/ocrbench_v2/README.md)  |
| RealWorldQA  | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/realworldqa/README.md)  |
| MathVision   | 多模态理解（图+文）          | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mathvision/README.md)   |
| RefCOCO      | 视觉定位（图+文）            | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/refcoco/README.md)      |
| RefCOCO+     | 视觉定位（图+文）            | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/refcoco_plus/README.md) |
| RefCOCOg     | 视觉定位（图+文）            | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/refcocog/README.md)     |

### 多轮对话类数据集

| 数据集名称 | 分类     | 详细介绍&获取方式                                                                                                     |
| ---------- | -------- | --------------------------------------------------------------------------------------------------------------------- |
| sharegpt   | 多轮对话 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/sharegpt/README.md) |
| mtbench    | 多轮对话 | [详细介绍](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/mtbench/README.md)  |

**提示：** 用户可以将获取的数据集文件夹统一放置在`ais_bench/datasets/`目录下，AISBench Benchmark 会根据数据集配置文件自动检索该目录下的数据集文件进行测试

### 配置开源数据集

AISBench Benchmark 开源数据集配置按照数据集名称保存在 [`configs/datasets`](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets) 目录下，在各个数据集对应的文件夹下存在多个数据集配置，文件结构如下所示：

```text
ais_bench/benchmark/configs/datasets
├── agieval
├── aime2024
├── ARC_c
├── ...
├── gsm8k  # 数据集
│   ├── gsm8k_gen.py  # 不同版本数据集配置文件
│   ├── gsm8k_gen_0_shot_cot_str_perf.py
│   ├── gsm8k_gen_0_shot_cot_chat_prompt.py
│   ├── gsm8k_gen_0_shot_cot_str.py
│   ├── gsm8k_gen_4_shot_cot_str.py
│   ├── gsm8k_gen_4_shot_cot_chat_prompt.py
│   └── README.md
├── ...
├── vocalsound
├── winogrande
└── Xsum
```

开源数据集配置名称由以下命名方式构成 `{数据集名称}_{评测方式}_{shot数目}_shot_{逻辑链规则}_{请求类型}_{任务类别}.py`，以 `gsm8k/gsm8k_gen_0_shot_cot_chat_prompt.py` 为例，该配置文件则为`gsm8k` 的数据集，对应的评测方式为 `gen`，即生成式评测（目前只支持生成式测评），shot提示的样本数为0，逻辑链规则为`cot`表明请求中包含逻辑链提示，不指定表明没有逻辑链提示，`chat_prompt`表明请求类型为对话，任务类别没有指定，默认为精度测试；同样的， `gsm8k_gen_0_shot_cot_str_perf.py` 指定请求类型为`str`字符串，请求类型`perf`表示模板用于性能测评任务。

> 💡 **提示:** 指定数据集配置名称时，可以不包含 `.py` 后缀

开源数据集的配置参数同样基于Python语法描述，以gsm8k为例，参数内容如下：

```python
gsm8k_datasets = [
    dict(
        abbr='gsm8k',                       # 测评任务中数据集的唯一标识
        type=GSM8KDataset,                  # 数据集类成员，与数据集绑定，暂不支持修改
        path='ais_bench/datasets/gsm8k',    # 数据集路径，使用相对路径时相对于源码根路径，支持绝对路径
        reader_cfg=gsm8k_reader_cfg,    # 数据读取配置，暂不支持修改
        infer_cfg=gsm8k_infer_cfg,      # 推理测评配置，暂不支持修改
        eval_cfg=gsm8k_eval_cfg)        # 精度测评配置，暂不支持修改
]
```

## 随机合成数据集

合成数据集是通过程序自动生成的，适用于测试模型在不同输入长度、分布和模式下的泛化能力。AISBench Benchmark 提供两类合成数据集：随机字符序列和随机 token 序列。无需额外下载，用户只需通过配置文件进行参数设置即可使用。详见：📚 [合成随机数据集配置文件使用指南](../advanced_tutorials/synthetic_dataset.md)

### 使用方式

使用方式和开源数据集相同，在`ais_bench/benchmark/configs/datasets/synthetic/`目录下选择需要的配置文件即可，目前已提供[synthetic_gen.py](https://github.com/AISBench/benchmark/tree/master/ais_bench/benchmark/configs/datasets/synthetic/synthetic_gen.py)，示例命令如下：

```bash
ais_bench --models vllm_api_stream_chat --datasets synthetic_gen
```

## 自定义数据集

AISBench Benchmark 支持用户接入自定义数据集，满足特定业务需求。用户可将私有数据整理为标准格式，通过内置接口无缝集成至评估流程中。详见：📚 [自定义数据集使用指南](../advanced_tutorials/custom_dataset.md)