# 纯模型精度测评 在本地环境加载模型与数据集,通过统一推理流程比对输出与参考答案,评估模型固有准确率。自定义批量大小、序列长度等参数,适用于**Huggingface Transformers**推理框架。 ## 测试准备 在执行服务化推理前,需要满足以下条件: - 可用的模型权重:确保本地已有需测试的模型权重文件,开源权重可从🔗 [huggingface社区](https://huggingface.co/models)获取。 - 数据集任务准备:从📚 [开源数据集](../all_params/datasets.md#开源数据集)中选择数据集,并且在数据集对应的"详细介绍"文档中选择要执行的数据集任务。参考选取的数据集任务对应的"详细介绍"文档准备好数据集文件,建议将开源数据集手动放置在默认目录 `ais_bench/datasets/`下,程序将在任务执行时自动加载数据集文件。 - 模型任务准备:从📚 [本地模型后端](../all_params/models.md#本地模型后端)中选择要执行的模型任务。 ## 主要功能 纯模型精度测评场景下主要功能与服务化精度测评场景相似。 ### 纯模型多任务测评 参考[服务化精度多任务测评使用方法](accuracy_benchmark.md#多任务测评) ### 纯模型多任务并行测评 参考[服务化精度多任务并行测评使用方法](accuracy_benchmark.md#多任务并行测评)。 > ⚠️ 注意:纯模型精度测评多任务并行会占用不同GPU单元,并行任务所需的GPU单元应小于等于可使用的GPU总数。 ### 纯模型中断续测 在纯模型精度测评过程中,如遇任务中断,可通过 `--reuse` 参数指定任务时间戳目录,继续未完成的推理任务,实现断点续测。该功能无需重复运行全部任务,仅对未完成部分进行补充推理。使用详情可参考[服务化精度中断续测使用方法](accuracy_benchmark.md#中断续测--失败用例重测)。 > ⚠️ 注意,纯模型精度测评当前不支持失败用例自动重测。 ### 纯模型合并子数据集推理 参考[服务化精度合并子数据集推理使用方法](accuracy_benchmark.md#合并子数据集推理)。 ## 其他功能 ### 纯模型推理结果重评估 参考[服务化精度推理结果重评估使用方法](accuracy_benchmark.md#推理结果重评估)。