评测场景简介

精度测评

服务化精度测评

  • 功能描述:评估部署为服务形式的模型在特定数据集上的预测准确率,当前支持基于生成式和PPL(Perplexity-based,困惑度)模式精度测评。

  • 要求:模型已部署,需测试其实际服务能力

  • 此场景支持的模型任务和数据集任务:

  • 约束:当前PPL模式精度测评任务只支持vllm_api_generalvllm_api_general_chat两种模型配置,其他均不支持。

依据使用需求选好模型任务数据集任务后,此场景的具体使用方法详见文档:📚 服务化精度测评指南

纯模型精度测评

  • 功能描述:评估本地加载模型(非服务化)在不同数据集上的准确性

  • 要求:离线模型权重和部署环境

  • 支持:

  • 约束:不支持PPL模式测评任务

依据使用需求选好模型任务数据集任务后,此场景的具体使用方法详见文档:📚 纯模型精度测评指南

性能测评

服务化性能测评

  • 功能描述:在真实部署环境中评估服务模型的运行效率(吞吐、延迟)

  • 要求:模型推理服务需支持流式接口方式访问

  • 支持:

  • 注意:性能测评所占用的缓存大小与请求的上下文长度以及请求的数量成正比,因此通常与测评时长呈正相关增长

  • 约束:不支持PPL模式测评任务

依据使用需求选好模型任务数据集任务后,此场景的具体使用方法详见文档:📚 服务化性能测评指南