# GEdit-Bench
## GEdit-Bench测评基准简介
[**GEdit-Bench（Genuine Edit-Bench）**](https://github.com/stepfun-ai/Step1X-Edit/blob/main/GEdit-Bench/) 是阶跃星辰（StepFun）于2025年4月推出的、面向**真实世界指令图像编辑**的权威测评基准，核心价值是用真实用户需求检验模型的实用能力。
### 核心定位与背景
- **全称**：Genuine Edit-Bench（真实编辑基准）
- **研发方**：阶跃星辰（StepFun AI），随其图像编辑模型 **Step1X-Edit** 一同发布
- **核心目标**：弥补现有基准依赖合成指令、脱离真实场景的缺陷，提供**贴近用户实际使用**的测评标准

### 数据集核心信息
- **数据来源**：从 Reddit 等社区收集**超1000条真实用户编辑请求**，经去重、去隐私、人工标注后筛选
- **最终规模**：**606个测试样本**（含英文 GEdit-Bench-EN、中文 GEdit-Bench-CN），整个数据集共1212个样本
- **任务覆盖**：11类高频真实编辑场景
  1. 背景替换/修改 (background_change)
  2. 色彩/色调调整 (color_alter)
  3. 材质/纹理变换 (material_alter)
  4. 动作/姿态编辑 (motion_change)
  5. 人像美化/修图 (ps_human)
  6. 风格迁移 (style_change)
  7. 物体添加/移除/替换 (subject-add)
  8. 文字编辑 (text_change)
  9. 局部细节精修 (subject-remove)
  10. 构图调整 (subject-replace)
  11. 复合编辑（多指令组合） (tone_transfer)

### 测评指标（MLLM 自动评分，满分10分）
- **G_SC, Q_SC（语义一致性）**：编辑结果与指令的匹配度
- **G_PQ, Q_PQ（图像质量）**：清晰度、细节保留、无伪影
- **G_O, Q_0（综合得分）**：G_SC 与 G_PQ 的加权综合
> 备注：其中`G_`表示使用GPT-4o的API作为裁判模型进行评分，`Q_`表示使用Qwen-2.5-VL-72B-Instruct作为裁判模型评分进行评分。

## AISBench测评 GEdit-Bench实践
### 基于MindIE框架对Qwen-Image-Edit模型进行测评
Qwen-Image-Edit模型的推理实现参考 [https://modelers.cn/models/MindIE/Qwen-Image-Edit-2509](https://modelers.cn/models/MindIE/Qwen-Image-Edit-2509)。
#### 硬件要求
昇腾服务器：
800I A2 (单芯片64GB显存) / 800I A3
#### 环境准备(以800I A2硬件为例)
基于MindIE提供的镜像完成测评。
1. **拉取MindIE镜像**
```
docker pull swr.cn-south-1.myhuaweicloud.com/ascendhub/mindie:2.3.0-800I-A2-py311-openeuler24.03-lts
```
2. **运行容器**
```
docker run --name ${NAME} -it -d --net=host --shm-size=500g \
    --privileged=true \
    -w /home \
    --device=/dev/davinci_manager \
    --device=/dev/hisi_hdc \
    --device=/dev/devmm_svm \
    --entrypoint=bash \
    -v /usr/local/Ascend/driver:/usr/local/Ascend/driver \
    -v /usr/local/dcmi:/usr/local/dcmi \
    -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \
    -v /etc/ascend_install.info:/etc/ascend_install.info \
    -v /usr/local/sbin:/usr/local/sbin \
    -v ${PATH_TO_WORKSPACE}:${PATH_TO_WORKSPACE} \
    -v /usr/share/zoneinfo/Asia/Shanghai:/etc/localtime \
    ${IMAGES_ID}
```
> 其中
- `${NAME}`：容器名称
- `${PATH_TO_WORKSPACE}`：本地工作目录路径
- `${IMAGES_ID}`：MindIE镜像ID

3. **安装最新版本AISBench**
在容器挂载的`${PATH_TO_WORKSPACE}`目录下clone最新的AISBench代码：
```bash
git clone https://github.com/AISBench/benchmark.git
```
进入容器中：
```bash
docker exec -it ${NAME} bash
```
在容器中参考AISBench的[安装说明](../../get_started/install.md)安装最新的AISBench工具。

4. **补充安装Qwen-Image-Edit运行依赖**
```shell
pip install diffusers==0.35.1
pip install transformers==4.52.4
pip install yunchang==0.6.0
```

5. **准备好模型权重和数据集**
参考[Qwen-Image-Edit-2509](https://huggingface.co/Qwen/Qwen-Image-Edit-2509)获取模型权重。
参考[GEdit-Bench数据集](https://huggingface.co/datasets/stepfun-ai/GEdit-Bench)获取数据集。
将在数据集放在`${PATH_TO_WORKSPACE}/benchmark/ais_bench/datasets`目录下(使用软链接也可以)。

#### 测评配置准备

在容器中`${PATH_TO_WORKSPACE}/benchmark/ais_bench/configs/lmm_example`目录下，打开`multi_device_run_qwen_image_edit.py`文件，编辑如下内容设置模型配置：
```python
# ......
# ====== User configuration parameters =========
qwen_image_edit_models[0]["path"] = "/path/to/Qwen-Image-Edit-2509/" # 修改成实际模型权重路径
qwen_image_edit_models[0]["infer_kwargs"]["num_inference_steps"] = 50 # 修改成需要推理的步数
device_list = [0] # [0, 1, 2, 3] 修改成实际可用的NPU设备ID列表，不一定要按顺序，每个device会单独拉起一个权重
# ====== User configuration parameters =========
# ......
```
注：这个配置文件支持将Gedit-Bench数据集平均切分成多个，分配给多个模型实例进行推理，提高推理效率。

执行如下命令找到`gedit_gen_0_shot_llmjudge.py`数据集配置所在路径：
```bash
ais_bench --datasets gedit_gen_0_shot_llmjudge --search
```
编辑`gedit_gen_0_shot_llmjudge.py`文件中裁判模型相关的配置，裁判模型的配置与常规API模型配置相同（可以参考快速入门中相关配置教程[模型配置介绍](../../get_started/quick_start.md#任务对应配置文件修改)），只是在`judge_model`字段中：
```python
# ......
        judge_model=dict(
            attr="service",
            type=VLLMCustomAPIChat,
            abbr=f"{metric}_judge", # Be added after dataset abbr
            path="",
            model="",
            stream=True,
            request_rate=0,
            use_timestamp=False,
            retry=2,
            api_key="",
            host_ip="localhost",
            host_port=8080,
            url="",
            max_out_len=512,
            batch_size=16,
            trust_remote_code=False,
            generation_kwargs=dict(
                temperature=0.01,
                ignore_eos=False,
            ),
            pred_postprocessor=dict(type=extract_non_reasoning_content),
        ),
# ......
```


#### 启动测评
在容器中，进入`${PATH_TO_WORKSPACE}/benchmark/ais_bench/configs/lmm_example`目录下，执行如下命令启动测评：
```bash
ais_bench multi_device_run_qwen_image_edit.py --max-num-workers {MAX_NUM_WORKERS}
```
其中`{MAX_NUM_WORKERS}`为最大并发worker数，建议设置为使用的device数的两倍，例如`device_list = [0, 1, 2, 3]`, `--max-num-workers 8`。

测评命令执行完成后（以使用4个device为例），会打印类似如下日志;
```shell

The markdown format results is as below:

| dataset | version | metric | mode | qwen-image-edit-0 | qwen-image-edit-1 | qwen-image-edit-2 | qwen-image-edit-3 |
|----- | ----- | ----- | ----- | ----- | ----- | ----- | -----|
| gedit-0-SC_judge | 16dd59 | SC | gen | 7.20 | - | - | - |
| gedit-0-PQ_judge | 16dd59 | PQ | gen | 7.08 | - | - | - |
| gedit-1-SC_judge | 16dd59 | SC | gen | - | 6.63 | - | - |
| gedit-1-PQ_judge | 16dd59 | PQ | gen | - | 6.73 | - | - |
| gedit-2-SC_judge | 16dd59 | SC | gen | - | - | 7.37 | - |
| gedit-2-PQ_judge | 16dd59 | PQ | gen | - | - | 7.22 | - |
| gedit-3-SC_judge | 16dd59 | SC | gen | - | - | - | 7.31 |
| gedit-3-PQ_judge | 16dd59 | PQ | gen | - | - | - | 7.24 |

[2026-03-04 15:40:45,583] [ais_bench] [INFO] write markdown summary to /workplace/benchmark/ais_bench/configs/lmm_example/outputs/default/20260213_150110/summary/summary_20260304_152835.md
```
该日志打印的是多device执行的元评测数据，在`/workplace/benchmark/ais_bench/configs/lmm_example`路径下需要进一步调用如下命令行工具对元评测数据进行处理：
```bash
#
# python3 -m ais_bench.tools.dataset_processors.gedit.display_results --config_path {CONFIG_PATH} --timestamp_path {TIMESTAMP_PATH}
python3 -m ais_bench.tools.dataset_processors.gedit.display_results --config_path ./multi_device_run_qwen_image_edit.py --timestamp_path outputs/default/20260213_150110/
```
其中`{CONFIG_PATH}`为启动ais_bench命令的配置（即`multi_device_run_qwen_image_edit.py`文件）的路径，
`{TIMESTAMP_PATH}`为ais_bench命令执行后落盘结果时间戳路径，(即`outputs/default/20260213_150110/`)。

该命令执行后，会打印类似如下日志，为最终GEdit-Bench评测指标的结果：
```shell
[2026-03-04 15:57:52,522] [__main__] [INFO] Finish dumping csv to: outputs/default/20260213_150110/results/gedit_gathered_result.csv
language      SC_point    PQ_point    O_point
----------  ----------  ----------  ---------
zh              7.1230      7.0694     6.9896
en              7.1280      7.0623     6.9983
all case        7.1254      7.0660     6.9937

```
在`outputs/default/20260213_150110/results/gedit_gathered_result.csv`文件中，保存了每条case的具体精度分数。

#### （可选拓展）将AISBench的推理结果用于在GEdit-Bench工具中使用
执行如下命令
```bash
# python3 -m ais_bench.tools.dataset_processors.gedit.display_results --config_path {CONFIG_PATH} --timestamp_path {TIMESTAMP_PATH}
python3 -m ais_bench.tools.dataset_processors.gedit.convert_results --config_path ./multi_device_run_qwen_image_edit.py --timestamp_path outputs/default/20260213_150110/
```
该命令执行后，会在`outputs/default/20260213_150110/results/`目录下生成一个`fullset`文件夹，该文件夹可直接用于在[GEdit-Bench工具](https://github.com/stepfun-ai/Step1X-Edit/blob/main/GEdit-Bench/EVAL.md)中进行evaluate。