用户配置参数

AISBench Benchmark 支持通过 命令行参数(CLI)配置常量文件 两种方式,自定义推理模式和评测流程。

命令行参数

命令行参数 [OPTIONS] 的基本调用格式:

ais_bench [OPTIONS]

参数说明

根据执行场景,命令行参数分为三大类:

  • 公共参数

  • 精度测评参数(仅在 --modeall、infer、evalviz 时生效)

  • 性能测评参数(仅在 --modeperfperf_viz 时生效)

精度测评参数只有在--mode参数指定为"all", "infer", "eval", "viz"时生效,性能测评参数只有在--mode参数指定为"perf", "perf_viz"时生效,公共参数则不区分任务执行模式,在所有模式下均可指定。

公共参数

适用于所有模式,可同时与精度或性能参数联合使用。

参数

说明

示例

--models

指定模型推理后端任务名称(对应 ais_bench/benchmark/configs/models 路径下一个已经实现的默认模型配置文件),支持传入多个任务名称,;与 config 参数二选一。详情参考📚 支持的模型

--models vllm_api_general

--datasets

指定数据集任务名称(对应 ais_bench/benchmark/configs/datasets 路径下一个已经实现的默认数据集配置文件),可传入多个;与 config 参数二选一。详情参考📚 支持的数据集类型

--datasets gsm8k_gen

--summarizer

指定结果总结任务名称(对应 ais_bench/benchmark/configs/summarizers 路径下一个已经实现的默认模型配置文件)。详情参考📚 支持的结果汇总任务

--summarizer medium

--mode-m

运行模式,可选:allinferevalvizperfperf_viz;默认 all
详细请见 📚 运行模式说明

--mode infer
-m all

--reuse-r

指定已有工作目录下的时间戳,继续执行并覆盖原有结果。结合--mode参数值,可用于推理中断续推,或基于已有推理结果执行精度计算、可视化结果打印。若不加参,则自动选取 --work-dir 下最新时间戳。

--reuse 20250126_144254
-r 20250126_144254

--work-dir-w

指定评测工作目录,用于保存输出结果。默认 outputs/default

--work-dir /path/to/work
-w /path/to/work

--config-dir

modelsdatasetssummarizers配置文件所在的文件夹路径,默认 ais_bench/benchmark/configs

--config-dir /xxx/xxx

--debug

开启 Debug 模式,配置该参数表示开启,未配置表示关闭,默认未配置。debug模式下所有日志将会直接打印在终端,日志会打印到终端。

--debug

--dry-run

开启 Dry Run 模式(只打屏不实际跑任务)开关,配置该参数表示开启,未配置表示关闭,默认未配置。

--dry-run

--max-workers-per-gpu

预留参数,暂不支持。

--max-workers-per-gpu 1

--merge-ds

开启同类数据集合并推理(同一任务多数据集一起跑)。

--merge-ds

--num-prompts

指定数据集测评条数,需传入正整数,超过数据集条数或默认情况下表示对全量数据集进行测评。

--num-prompts 500

--max-num-workers

并行任务数,范围 [1, 0.8 * CPU 核数],默认 1。注意:性能测评场景下,并发数过高可能会导致不同进程出现资源抢占,导致测试结果失真。

--max-num-workers 2

--num-warmups

发送请求前预热次数,默认 1;若设为0,则不预热。如果warmup中存在失败请求,后续推理任务将不会执行。

--num-warmups 10

精度测评参数

仅在模式为 all、infer、evalviz 时有效。

参数

说明

示例

--dump-eval-details

是否dump出评测过程细节的开关,配置该参数表示开启,未配置表示关闭,默认未配置。

--dump-eval-details

--dump-extract-rate

是否dump出评测速度的开关,配置该参数表示开启,未配置表示关闭,默认未配置。

--dump-extract-rate

性能测评参数

仅在模式为 perfperf_viz 时有效。

参数

说明

示例

--pressure

是否开启性能压测方式的开关,仅当 --mode perf 时有效,配置该参数表示开启,未配置表示关闭,默认未配置。压力测试详情可参考:📚 压力测试使能稳态测试

--pressure

--pressure-time

压测持续时间,仅在指定 --pressure 模式时生效。单位为秒,默认15秒,取值范围为 [1, 86400](即 1 秒 至 24 小时)。

--pressure-time 30

配置常量文件参数

部分全局常量不区分任务类型,推荐保持默认;如需自定义,可编辑常量文件:global_consts.py配置。 当前支持的参数配置如下:

参数名

说明

取值范围 / 要求

WORKERS_NUM

请求发送所用的进程数。 默认为0, 根据用户配置的请求最大并发数自动分配。

[0, cpu核数]

MAX_CHUNK_SIZE

流式推理模型后端返回的单个 chunk 最大缓存大小。默认值为 65535 字节(64KB)。

(0, 16777216](单位:Byte)

REQUEST_TIME_OUT

Client 端请求发送后等待返回的超时时间。默认为 None,即无限等待,始终等待模型返回结果。

None>0(单位:秒)

LOG_LEVEL

日志级别,可选:DEBUG, INFO, WARNING, ERROR, CRITICAL。默认 INFO

[DEBUG, INFO, WARNING, ERROR, CRITICAL]

PRESSURE_TIME

压测持续时间,仅在指定 --pressure 模式时生效。单位为秒。(该参数将在未来版本中废弃,请使用 --pressure-time 参数代替)

[1, 86400](即 1 秒 至 24 小时)

CONNECTION_ADD_RATE

并发线程创建速率。表示每秒新增的并发线程数,直至达到最大并发限制。仅在指定 --pressure 模式时生效。(该参数将在未来版本中废弃,请在模型配置文件中修改 request_rate 参数代替)

> 0.1(单位:线程数 / 秒)