纯模型精度测评
在本地环境加载模型与数据集,通过统一推理流程比对输出与参考答案,评估模型固有准确率。自定义批量大小、序列长度等参数,适用于Huggingface Transformers推理框架。
测试准备
在执行服务化推理前,需要满足以下条件:
可用的模型权重:确保本地已有需测试的模型权重文件,开源权重可从🔗 huggingface社区获取。
数据集任务准备:从📚 开源数据集中选择数据集,并且在数据集对应的"详细介绍"文档中选择要执行的数据集任务。参考选取的数据集任务对应的"详细介绍"文档准备好数据集文件,建议将开源数据集手动放置在默认目录
ais_bench/datasets/下,程序将在任务执行时自动加载数据集文件。模型任务准备:从📚 本地模型后端中选择要执行的模型任务。
主要功能
纯模型精度测评场景下主要功能与服务化精度测评场景相似。
纯模型多任务测评
纯模型多任务并行测评
⚠️ 注意:纯模型精度测评多任务并行会占用不同GPU单元,并行任务所需的GPU单元应小于等于可使用的GPU总数。
纯模型中断续测
在纯模型精度测评过程中,如遇任务中断,可通过 --reuse 参数指定任务时间戳目录,继续未完成的推理任务,实现断点续测。该功能无需重复运行全部任务,仅对未完成部分进行补充推理。使用详情可参考服务化精度中断续测使用方法。
⚠️ 注意,纯模型精度测评当前不支持失败用例自动重测。