# 性能测评结果说明 性能测评结果包括单个推理请求性能输出结果和端到端性能输出结果,参数说明如下: ## 单个推理请求性能输出结果 部分统计指标解释如下所示: + P75 / P90 / P99:以 TPOT 为例,表示所有请求的 TPOT 值分别处于第 75、90、99 百分位的性能表现。 + E2EL(End-to-End Latency):单个请求从发送到接收全部响应的总时延。 + TTFT(Time To First Token):首个 Token 返回的时延。 + TPOT(Time Per Output Token):输出阶段每个 Token 的平均生成时延(不含首个 Token)。 + ITL(Inter-token Latency):相邻 Token 间的平均间隔时延(不含首个 Token)。 + InputTokens:请求的输入 Token 数量。 + OutputTokens:请求生成的输出 Token 数量。 + OutputTokenThroughput:输出 Token 的吞吐率(Token/s)。 + Tokenizer:Tokenizer 编码耗时。 + Detokenizer:Detokenizer 解码耗时。 |Performance Parameters|Stage|Average|Max|Min|Median|P75|P90|P99|N| | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | |E2EL|统计此参数的阶段|平均请求时延|最大请求时延|最小请求时延|请求时延中位数|请求时延75分位值|请求时延90分位值|请求时延99分位值|测试数据量,来源于输入参数| |TTFT|统计此参数的阶段|首个token平均时延|首个token最大时延|首个token最小时延|首个token中位数时延|首个token75分位时延|首个token90分位时延|首个token99分位时延|测试数据量,来源于输入参数| |TPOT|统计此参数的阶段|Decode阶段平均时延|最大Decode阶段时延|最小Decode阶段时延|Decode阶段中位数时延|75分位Decode阶段时延|90分位每条请求Decode阶段平均时延|99分位Decode阶段时延|测试数据量,来源于输入参数| |ITL|统计此参数的阶段|token间平均时延|token间最大时延|token间最小时延|token间中位数时延|token间75分位时延|token间90分位时延|token间99分位时延|测试数据量,来源于输入参数| |InputTokens|统计此参数的阶段|输入token平均长度|最大输入token长度|最小输入token长度|输入token中位数长度|75分位输入token长度|90分位输入token长度|99分位输入token长度|测试数据量,来源于输入参数| |OutputTokens|统计此参数的阶段|输出token平均长度|最大输出token长度|最小输出token长度|输出token中位数长度|75分位输出token长度|90分位输出token长度|99分位输出token长度|测试数据量,来源于输入参数| |OutputTokenThroughput|统计此参数的阶段|平均输出吞吐|最大输出吞吐|最小输出吞吐|中位数输出吞吐|输出吞吐75分位|输出吞吐90分位|输出吞吐99分位|测试数据量,来源于输入参数| ## 端到端性能输出结果 | 参数 | 说明 | | ---------------------------- | --------------------- | | **Benchmark Duration** | 测试任务的总执行时间 | | **Total Requests** | 请求总数量 | | **Failed Requests** | 请求失败数量(包含无响应或响应为空) | | **Success Requests** | 成功返回的请求数量(包括空响应与非空响应) | | **Concurrency** | 实际平均并发数 | | **Max Concurrency** | 配置的最大并发数 | | **Request Throughput** | 请求级吞吐率(请求数/秒) | | **Total Input Tokens** | 所有请求的总输入 Token 数 | | **Prefill Token Throughput** | Prefill 阶段的 Token 吞吐率 | | **Total Output Tokens** | 所有请求生成的总输出 Token 数 | | **Input Token Throughput** | 输入 Token 吞吐率 | | **Output Token Throughput** | 输出 Token 吞吐率 | | **Total Token Throughput** | 总 Token 吞吐率(输入 + 输出) |