# 纯模型精度测评
在本地环境加载模型与数据集，通过统一推理流程比对输出与参考答案，评估模型固有准确率。自定义批量大小、序列长度等参数，适用于**Huggingface Transformers**推理框架。
## 测试准备
在执行服务化推理前，需要满足以下条件：

- 可用的模型权重：确保本地已有需测试的模型权重文件，开源权重可从🔗 [huggingface社区](https://huggingface.co/models)获取。
- 数据集任务准备：从📚 [开源数据集](../all_params/datasets.md#开源数据集)中选择数据集，并且在数据集对应的"详细介绍"文档中选择要执行的数据集任务。参考选取的数据集任务对应的"详细介绍"文档准备好数据集文件，建议将开源数据集手动放置在默认目录 `ais_bench/datasets/`下，程序将在任务执行时自动加载数据集文件。
- 模型任务准备：从📚 [本地模型后端](../all_params/models.md#本地模型后端)中选择要执行的模型任务。

## 主要功能
纯模型精度测评场景下主要功能与服务化精度测评场景相似。
### 纯模型多任务测评
参考[服务化精度多任务测评使用方法](accuracy_benchmark.md#多任务测评)
### 纯模型多任务并行测评
参考[服务化精度多任务并行测评使用方法](accuracy_benchmark.md#多任务并行测评)。
> ⚠️ 注意：纯模型精度测评多任务并行会占用不同GPU单元，并行任务所需的GPU单元应小于等于可使用的GPU总数。
### 纯模型中断续测
在纯模型精度测评过程中，如遇任务中断，可通过 `--reuse` 参数指定任务时间戳目录，继续未完成的推理任务，实现断点续测。该功能无需重复运行全部任务，仅对未完成部分进行补充推理。使用详情可参考[服务化精度中断续测使用方法](accuracy_benchmark.md#中断续测--失败用例重测)。
> ⚠️ 注意，纯模型精度测评当前不支持失败用例自动重测。
### 纯模型合并子数据集推理
参考[服务化精度合并子数据集推理使用方法](accuracy_benchmark.md#合并子数据集推理)。

## 其他功能
### 纯模型推理结果重评估
参考[服务化精度推理结果重评估使用方法](accuracy_benchmark.md#推理结果重评估)。