GEdit-Bench

GEdit-Bench测评基准简介

GEdit-Bench（Genuine Edit-Bench） 是阶跃星辰（StepFun）于2025年4月推出的、面向真实世界指令图像编辑的权威测评基准，核心价值是用真实用户需求检验模型的实用能力。

核心定位与背景

全称：Genuine Edit-Bench（真实编辑基准）
研发方：阶跃星辰（StepFun AI），随其图像编辑模型 Step1X-Edit 一同发布
核心目标：弥补现有基准依赖合成指令、脱离真实场景的缺陷，提供贴近用户实际使用的测评标准

数据集核心信息

数据来源：从 Reddit 等社区收集超1000条真实用户编辑请求，经去重、去隐私、人工标注后筛选
最终规模：606个测试样本（含英文 GEdit-Bench-EN、中文 GEdit-Bench-CN），整个数据集共1212个样本
任务覆盖：11类高频真实编辑场景
1. 背景替换/修改 (background_change)
2. 色彩/色调调整 (color_alter)
3. 材质/纹理变换 (material_alter)
4. 动作/姿态编辑 (motion_change)
5. 人像美化/修图 (ps_human)
6. 风格迁移 (style_change)
7. 物体添加/移除/替换 (subject-add)
8. 文字编辑 (text_change)
9. 局部细节精修 (subject-remove)
10. 构图调整 (subject-replace)
11. 复合编辑（多指令组合） (tone_transfer)

测评指标（MLLM 自动评分，满分10分）

G_SC, Q_SC（语义一致性）：编辑结果与指令的匹配度
G_PQ, Q_PQ（图像质量）：清晰度、细节保留、无伪影
G_O, Q_0（综合得分）：G_SC 与 G_PQ 的加权综合

备注：其中G_表示使用GPT-4o的API作为裁判模型进行评分，Q_表示使用Qwen-2.5-VL-72B-Instruct作为裁判模型评分进行评分。

AISBench测评 GEdit-Bench实践

基于MindIE框架对Qwen-Image-Edit模型进行测评

硬件要求

昇腾服务器： 800I A2 (单芯片64GB显存) 800I A3

环境准备(以800I A2硬件为例)

基于MindIE提供的镜像完成测评。

拉取MindIE镜像

docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.3.0-800I-A2-py311-openeuler24.03-lts

运行容器

docker run --name ${NAME} -it -d --net=host --shm-size=500g \
    --privileged=true \
    -w /home \
    --device=/dev/davinci_manager \
    --device=/dev/hisi_hdc \
    --device=/dev/devmm_svm \
    --entrypoint=bash \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /usr/local/sbin:/usr/local/sbin \
    -v ${PATH_TO_WORKSPACE}:${PATH_TO_WORKSPACE} \
    -v /usr/share/zoneinfo/Asia/Shanghai:/etc/localtime \
    ${IMAGES_ID}

其中

${NAME}：容器名称
${PATH_TO_WORKSPACE}：本地工作目录路径
${IMAGES_ID}：MindIE镜像ID

安装最新版本AISBench 在容器挂载的${PATH_TO_WORKSPACE}目录下clone最新的AISBench代码：

git clone https://github.com/AISBench/benchmark.git

进入容器中：

docker exec -it ${NAME} bash

在容器中参考AISBench的安装说明安装最新的AISBench工具。

准备好模型权重和数据集 参考Qwen-Image-Edit-2509获取模型权重。参考GEdit-Bench数据集获取数据集。将在数据集放在${PATH_TO_WORKSPACE}/benchmark/ais_bench/datasets目录下(使用软链接也可以)。

测评配置准备

在容器中${PATH_TO_WORKSPACE}/benchmark/ais_bench/configs/lmm_example目录下，打开multi_device_run_qwen_image_edit.py文件，编辑如下内容设置模型配置：

# ......
# ====== User configuration parameters =========
qwen_image_edit_models[0]["path"] = "/path/to/Qwen-Image-Edit-2509/" # 修改成实际模型权重路径
qwen_image_edit_models[0]["infer_kwargs"]["num_inference_steps"] = 50 # 修改成需要推理的步数
device_list = [0] # [0, 1, 2, 3] 修改成实际可用的NPU设备ID列表，不一定要按顺序，每个device会单独拉起一个权重
# ====== User configuration parameters =========
# ......

注：这个配置文件支持将Gedit-Bench数据集平均切分成多个，分配给多个模型实例进行推理，提高推理效率。

执行如下命令找到gedit_gen_0_shot_llmjudge.py数据集配置所在路径：

ais_bench --datasets gedit_gen_0_shot_llmjudge --search

编辑gedit_gen_0_shot_llmjudge.py文件中裁判模型相关的配置，裁判模型的配置与常规API模型配置相同（可以参考快速入门中相关配置教程模型配置介绍），只是在judge_model字段中：

# ......
        judge_model=dict(
            attr="service",
            type=VLLMCustomAPIChat,
            abbr=f"{metric}_judge", # Be added after dataset abbr
            path="",
            model="",
            stream=True,
            request_rate=0,
            use_timestamp=False,
            retry=2,
            api_key="",
            host_ip="localhost",
            host_port=8080,
            url="",
            max_out_len=512,
            batch_size=16,
            trust_remote_code=False,
            generation_kwargs=dict(
                temperature=0.01,
                ignore_eos=False,
            ),
            pred_postprocessor=dict(type=extract_non_reasoning_content),
        ),
# ......

启动测评

在容器中，进入${PATH_TO_WORKSPACE}/benchmark/ais_bench/configs/lmm_example目录下，执行如下命令启动测评：

ais_bench multi_device_run_qwen_image_edit.py --max-num-workers {MAX_NUM_WORKERS}

其中{MAX_NUM_WORKERS}为最大并发worker数，建议设置为使用的device数的两倍，例如device_list = [0, 1, 2, 3], --max-num-workers 8。

测评命令执行完成后（以使用4个device为例），会打印类似如下日志;

The markdown format results is as below:

| dataset | version | metric | mode | qwen-image-edit-0 | qwen-image-edit-1 | qwen-image-edit-2 | qwen-image-edit-3 |
|----- | ----- | ----- | ----- | ----- | ----- | ----- | -----|
| gedit-0-SC_judge | 16dd59 | SC | gen | 7.20 | - | - | - |
| gedit-0-PQ_judge | 16dd59 | PQ | gen | 7.08 | - | - | - |
| gedit-1-SC_judge | 16dd59 | SC | gen | - | 6.63 | - | - |
| gedit-1-PQ_judge | 16dd59 | PQ | gen | - | 6.73 | - | - |
| gedit-2-SC_judge | 16dd59 | SC | gen | - | - | 7.37 | - |
| gedit-2-PQ_judge | 16dd59 | PQ | gen | - | - | 7.22 | - |
| gedit-3-SC_judge | 16dd59 | SC | gen | - | - | - | 7.31 |
| gedit-3-PQ_judge | 16dd59 | PQ | gen | - | - | - | 7.24 |

[2026-03-04 15:40:45,583] [ais_bench] [INFO] write markdown summary to /workplace/benchmark/ais_bench/configs/lmm_exmaple/outputs/default/20260213_150110/summary/summary_20260304_152835.md

该日志打印的是多device执行的元评测数据，在/workplace/benchmark/ais_bench/configs/lmm_exmaple路径下需要进一步调用如下命令行工具对元评测数据进行处理：

#
# python3 -m ais_bench.tools.dataset_processors.gedit.display_results --config_path {CONFIG_PATH} --timestamp_path {TIMESTAMP_PATH}
python3 -m ais_bench.tools.dataset_processors.gedit.display_results --config_path ./multi_device_run_qwen_image_edit.py --timestamp_path outputs/default/20260213_150110/

其中{CONFIG_PATH}为启动ais_bench命令的配置（即multi_device_run_qwen_image_edit.py文件）的路径， {TIMESTAMP_PATH}为ais_bench命令执行后落盘结果时间戳路径，(即outputs/default/20260213_150110/)。

该命令执行后，会打印类似如下日志，为最终GEdit-Bench评测指标的结果：

[2026-03-04 15:57:52,522] [__main__] [INFO] Finish dumping csv to: outputs/default/20260213_150110/results/gedit_gathered_result.csv
language      SC_point    PQ_point    O_point
----------  ----------  ----------  ---------
zh              7.1230      7.0694     6.9896
en              7.1280      7.0623     6.9983
all case        7.1254      7.0660     6.9937

在outputs/default/20260213_150110/results/gedit_gathered_result.csv文件中，保存了每条case的具体精度分数。

（可选拓展）将AISBench的推理结果用于在GEdit-Bench工具中使用

执行如下命令

# python3 -m ais_bench.tools.dataset_processors.gedit.display_results --config_path {CONFIG_PATH} --timestamp_path {TIMESTAMP_PATH}
python3 -m ais_bench.tools.dataset_processors.gedit.convert_results --config_path ./multi_device_run_qwen_image_edit.py --timestamp_path outputs/default/20260213_150110/

该命令执行后，会在outputs/default/20260213_150110/results/目录下生成一个fullset文件夹，该文件夹可直接用于在GEdit-Bench工具中进行evaluate。