运行模式说明
精度评测场景
all 模式
在 all 模式下,评测工具会执行完整的推理 → 评估 → 汇总流程:
graph LR;
A[基于给定数据集执行推理] --> B((推理结果))
B --> C[基于推理结果进行评估]
C --> D((精度数据))
D --> E[基于精度数据生成汇总报告]
E --> F((呈现结果))
命令示例:
ais_bench --models vllm_api_general --datasets gsm8k_gen --mode all
生成结构目录结构:
outputs/default/
├── 20250220_120000/ # 每个实验对应一个时间戳文件夹
├── 20250220_183030/
│ ├── configs/ # 已转储的配置文件(可包含多次实验的配置)
│ ├── logs/
│ │ ├── eval/ # 评估阶段日志
│ │ └── infer/ # 推理阶段日志
│ ├── predictions/ # 推理结果数据
│ ├── results/ # 每个任务的评估结果
│ └── summary/ # 单次实验的汇总报告
└── ...
infer模式
在 infer 模式下,仅执行推理阶段并保存输出结果:
graph LR;
A[基于给定数据集执行推理] --> B((推理结果))
命令示例:
ais_bench --models vllm_api_general --datasets gsm8k_gen --mode infer
生成结构目录结构:
outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│ ├── configs/
│ ├── logs/
│ │ └── infer/
│ └── predictions/ # 仅包含推理结果
└── ...
eval模式
在 eval 模式下,基于已有的推理结果执行评估与报告生成,需要使用 --reuse 参数:
graph LR;
B((推理结果)) --> C[基于推理结果进行评估]
C --> D((精度数据))
D --> E[基于精度数据生成汇总报告]
E --> F((呈现结果))
命令示例:
ais_bench --models vllm_api_general --datasets gsm8k_gen --mode eval --reuse
生成结构目录结构:
outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│ ├── configs/
│ ├── logs/
│ │ ├── eval/ # 新增 eval 日志
│ │ └── infer/
│ ├── predictions/
│ └── results/ # 新增评估结果文件
└── ...
viz模式
在 viz 模式下,仅基于已有的精度数据生成并展示汇总报告,同样需使用 --reuse 参数:
graph LR;
D((精度数据)) --> E[基于精度数据生成汇总报告]
E --> F((呈现结果))
命令示例:
ais_bench --models vllm_api_general --datasets gsm8k_gen --mode viz --reuse
生成结构目录结构:
outputs/default/
├── 20250220_120000/
├── 20250220_183030/
│ ├── configs/
│ ├── logs/
│ │ ├── eval/
│ │ └── infer/
│ ├── predictions/
│ ├── results/
│ └── summary/ # 新增汇总报告(viz 输出)
└── ...
性能评测场景
perf模式
在 perf 模式下,评测工具会执行完整的性能采样 → 计算 → 汇总流程,并生成可视化报告:
graph LR;
A[基于给定数据集执行推理] --> B((性能打点数据))
B --> C[基于打点数据进行指标计算]
C --> D((性能数据))
D --> E[基于性能数据生成汇总报告]
E --> F((呈现结果))
⚠️ 注意: 性能评测场景下,
--models仅支持流式服务化推理 API(参考 服务化推理API后端),例如vllm_api_general_stream。
命令示例:
ais_bench --models vllm_api_general_stream --datasets synthetic_gen --mode perf
生成目录结构示例:
outputs/default/
├── 20200220_120000/
├── 20230220_183030/
│ ├── configs/
│ ├── logs/
│ │ └── performance/ # 性能测评日志
│ └── performance/ # 性能测评结果
│ └── vllm-api-general-stream/
│ ├── syntheticdataset.csv # 单次推理请求性能数据
│ ├── syntheticdataset.json # 端到端性能数据
│ ├── syntheticdataset_details.h5 # 完整打点中的ITL数据
│ ├── syntheticdataset_details.json # 完整打点明细
│ └── syntheticdataset_plot.html # 实时并发与请求可视化页面
└── ...
性能打点基于
syntheticdataset.csv和syntheticdataset.json。
perf_viz 模式
在 perf_viz 模式下,仅基于已有的性能数据生成并展示汇总报告,需要使用 --reuse 参数:
graph LR;
D((性能数据)) --> E[基于性能数据生成汇总报告]
E --> F((呈现结果))
命令示例:
ais_bench --models vllm_api_general_stream --datasets synthetic_gen --mode perf_viz --reuse
说明:
perf_viz将读取最近一次实验文件夹内的syntheticdataset.csv与syntheticdataset.json,并根据 性能指标介绍 生成可视化结果。
性能测评结果参考:性能指标介绍