VBench 本地缓存依赖清单
缓存根目录:默认使用环境变量
VBENCH_CACHE_DIR,若未设置,则为~/.cache/vbench。另支持在 AISBench 的 VBench 示例配置顶层设置同名变量(见下文「在 AISBench 配置中指定缓存目录」)。一键下载脚本:
ais_bench/configs/vbench_examples/download_vbench_cache.sh会自动按下述结构下载/准备资源。
目录结构目标
最终希望在(默认)~/.cache/vbench/ 下至少包含:
ViCLIP/ViClip-InternVid-10M-FLT.pthViCLIP/bpe_simple_vocab_16e6.txt.gzaesthetic_model/emb_reader/sa_0_4_vit_l_14_linear.pthamt_model/amt-s.pthbert_model/bert-base-uncased/...(HuggingFace BERT 仓库完整快照)caption_model/tag2text_swin_14m.pthclip_model/ViT-B-32.ptclip_model/ViT-L-14.ptdino_model/dino_vitbase16_pretrain.pthdino_model/facebookresearch_dino_main/...(DINO 官方仓库克隆)grit_model/grit_b_densecap_objectdet.pthpyiqa_model/musiq_spaq_ckpt-358bb6af.pthraft_model/models/raft-things.pth(以及 zip 解压出的其它 RAFT 模型)umt_model/l16_ptk710_ftk710_ftk400_f16_res224.pth
逐项依赖与下载来源
CLIP 模型
路径:
clip_model/ViT-B-32.pt,clip_model/ViT-L-14.pt用途:
background_consistency、appearance_style、aesthetic_quality等来源:
ViT-B-32.pt:https://openaipublic.azureedge.net/clip/models/40d3657159.../ViT-B-32.ptViT-L-14.pt:https://openaipublic.azureedge.net/clip/models/b8cca3fd4.../ViT-L-14.pt
UMT 模型(人类动作)
路径:
umt_model/l16_ptk710_ftk710_ftk400_f16_res224.pth用途:
human_action来源:
https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/l16_ptk710_ftk710_ftk400_f16_res224.pth
AMT-S 模型(运动平滑度)
路径:
amt_model/amt-s.pth用途:
motion_smoothness来源:
https://huggingface.co/lalala125/AMT/resolve/main/amt-s.pth
RAFT 光流模型
路径:
根目录:
raft_model/主模型:
raft_model/models/raft-things.pth
用途:
dynamic_degree、static_filter等来源(zip):
https://dl.dropboxusercontent.com/s/4j4z58wuv8o0mfz/models.zip
DINO 模型(subject_consistency,本地模式)
路径:
仓库:
dino_model/facebookresearch_dino_main/权重:
dino_model/dino_vitbase16_pretrain.pth
用途:
subject_consistency维度来源:
仓库:
https://github.com/facebookresearch/dino权重:
https://dl.fbaipublicfiles.com/dino/dino_vitbase16_pretrain/dino_vitbase16_pretrain.pth
Aesthetic Predictor(LAION)
路径:
aesthetic_model/emb_reader/sa_0_4_vit_l_14_linear.pth用途:
aesthetic_quality来源:
https://github.com/LAION-AI/aesthetic-predictor/blob/main/sa_0_4_vit_l_14_linear.pth?raw=true
MUSIQ / PyIQA(图像质量)
路径:
pyiqa_model/musiq_spaq_ckpt-358bb6af.pth用途:
imaging_quality来源:
https://github.com/chaofengc/IQA-PyTorch/releases/download/v0.1-weights/musiq_spaq_ckpt-358bb6af.pth
GRiT 稠密标注模型
路径:
grit_model/grit_b_densecap_objectdet.pth用途:
object_class、multiple_objects、color、spatial_relationship来源:
https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/grit_b_densecap_objectdet.pth
Tag2Text 场景描述模型
路径:
caption_model/tag2text_swin_14m.pth用途:
scene来源:
https://huggingface.co/spaces/xinyu1205/recognize-anything/resolve/main/tag2text_swin_14m.pth
ViCLIP 视频-文本模型 + BPE 词表
路径:
权重:
ViCLIP/ViClip-InternVid-10M-FLT.pthBPE:
ViCLIP/bpe_simple_vocab_16e6.txt.gz
用途:
temporal_style、overall_consistency来源:
权重:
https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/ViClip-InternVid-10M-FLT.pthBPE:
https://raw.githubusercontent.com/openai/CLIP/main/clip/bpe_simple_vocab_16e6.txt.gz
BERT base(bert-base-uncased)
路径:
bert_model/bert-base-uncased/(完整 HF 仓库)用途:
Tag2Text与GRiT的文本编码部分本地搜索逻辑:
优先
VBENCH_BERT_PATH环境变量目录否则尝试
CACHE_DIR/bert_model/bert-base-uncased若都不存在,则回落到 HuggingFace hub id
bert-base-uncased
推荐下载方式(与脚本一致):
需安装
huggingface-cli,例如:pip install "huggingface_hub[cli]"huggingface-cli download bert-base-uncased --local-dir ~/.cache/vbench/bert_model/bert-base-uncased --local-dir-use-symlinks False
使用方式
确认已安装
wget、git,若需要自动下载 BERT,还需安装huggingface-cli。在仓库根目录执行:
bash ais_bench/configs/vbench_examples/download_vbench_cache.sh
若需修改缓存根目录,可在执行前设置:
export VBENCH_CACHE_DIR=/your/custom/cache/dir
bash ais_bench/configs/vbench_examples/download_vbench_cache.sh
脚本会自动跳过已存在的文件,多次执行是安全的。
在 AISBench 配置中指定缓存目录
在 VBench 示例配置(如 eval_vbench_standard.py)中与 DATA_PATH 同级定义顶层变量即可,例如:
VBENCH_CACHE_DIR = "/your/custom/cache/dir"
也支持 Python 风格的别名 vbench_cache_dir;若二者均存在,以 VBENCH_CACHE_DIR 为准。
优先级(在运行 VBenchEvalTask 的测评子进程内、且仅在首次 import vbench 之前生效):
配置里若设置了非空的
VBENCH_CACHE_DIR或vbench_cache_dir,则写入os.environ['VBENCH_CACHE_DIR'](展开~与$VAR),并覆盖该子进程内已有的同名环境变量。若未在配置中设置,则沿用启动
ais_bench前已在 shell 中export的VBENCH_CACHE_DIR。若仍无,则由 vbench 默认使用
~/.cache/vbench。
与一键脚本的关系:download_vbench_cache.sh 只读取 shell 环境变量,不会读取上述 Python 配置文件。若希望下载目录与测评一致,请在执行脚本前 export 相同的 VBENCH_CACHE_DIR,或在两处分别指定同一绝对路径。
手动下载与放置指南(脚本失败时)
当网络或权限问题导致 download_vbench_cache.sh 多次失败时,可以根据本节说明手动下载每一份依赖并放到对应路径,从而绕过一键脚本。
全局说明
缓存根目录
CACHE_DIR若未设置
VBENCH_CACHE_DIR:CACHE_DIR=~/.cache/vbench若已设置:
CACHE_DIR=$VBENCH_CACHE_DIR
目录准备:手动下载前,建议先创建子目录,例如:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR"/{clip_model,umt_model,amt_model,raft_model,dino_model,aesthetic_model/emb_reader,pyiqa_model,grit_model,caption_model,ViCLIP,bert_model}
Hugging Face 镜像
HF_ENDPOINT(可选)所有
https://huggingface.co/...的链接,都可以通过将前缀替换为镜像(例如https://hf-mirror.com)来加速:原始:
https://huggingface.co/xxx/yyy镜像:
https://hf-mirror.com/xxx/yyy
以下所有“目标路径”默认都是相对于 CACHE_DIR。
1. CLIP 模型(ViT-B-32 / ViT-L-14)
用途:
background_consistency、appearance_style、aesthetic_quality等目标路径:
clip_model/ViT-B-32.ptclip_model/ViT-L-14.pt
官方下载链接:
ViT-B-32.pt:https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.ptViT-L-14.pt:https://openaipublic.azureedge.net/clip/models/b8cca3fd41ae0c99ba7e8951adf17d267cdb84cd88be6f7c2e0eca1737a03836/ViT-L-14.pt
命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/clip_model"
wget -O "$CACHE_DIR/clip_model/ViT-B-32.pt" \
"https://openaipublic.azureedge.net/clip/models/40d365715913c9da98579312b702a82c18be219cc2a73407c4526f58eba950af/ViT-B-32.pt"
wget -O "$CACHE_DIR/clip_model/ViT-L-14.pt" \
"https://openaipublic.azureedge.net/clip/models/b8cca3fd41ae0c99ba7e8951adf17d267cdb84cd88be6f7c2e0eca1737a03836/ViT-L-14.pt"
浏览器方式:分别用浏览器打开上述两个链接下载,然后把文件移动为:
ViT-B-32.pt→$CACHE_DIR/clip_model/ViT-B-32.ptViT-L-14.pt→$CACHE_DIR/clip_model/ViT-L-14.pt
2. UMT 模型(人类动作)
用途:
human_action目标路径:
umt_model/l16_ptk710_ftk710_ftk400_f16_res224.pth官方下载链接:
原始:
https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/l16_ptk710_ftk710_ftk400_f16_res224.pth如使用镜像,将前缀替换为镜像站,例如:
https://hf-mirror.com/OpenGVLab/VBench_Used_Models/resolve/main/l16_ptk710_ftk710_ftk400_f16_res224.pth
命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/umt_model"
wget -O "$CACHE_DIR/umt_model/l16_ptk710_ftk710_ftk400_f16_res224.pth" \
"https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/l16_ptk710_ftk710_ftk400_f16_res224.pth"
浏览器方式:用浏览器打开上述链接下载,然后移动为:
$CACHE_DIR/umt_model/l16_ptk710_ftk710_ftk400_f16_res224.pth
3. AMT-S 模型(运动平滑度)
用途:
motion_smoothness目标路径:
amt_model/amt-s.pth官方下载链接:
原始:
https://huggingface.co/lalala125/AMT/resolve/main/amt-s.pth
命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/amt_model"
wget -O "$CACHE_DIR/amt_model/amt-s.pth" \
"https://huggingface.co/lalala125/AMT/resolve/main/amt-s.pth"
浏览器方式:下载后移动到:
$CACHE_DIR/amt_model/amt-s.pth
4. RAFT 光流模型
用途:
dynamic_degree、static_filter等目标根目录:
raft_model/关键文件:
raft_model/models/raft-things.pth官方下载链接(zip):
https://dl.dropboxusercontent.com/s/4j4z58wuv8o0mfz/models.zip命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/raft_model"
wget -O "$CACHE_DIR/raft_model/models.zip" \
"https://dl.dropboxusercontent.com/s/4j4z58wuv8o0mfz/models.zip"
cd "$CACHE_DIR/raft_model"
unzip -o models.zip
rm -f models.zip
浏览器方式:
浏览器下载
models.zip。将
models.zip放到$CACHE_DIR/raft_model/下。在该目录执行解压:
unzip models.zip。确认存在
$CACHE_DIR/raft_model/models/raft-things.pth,之后可删除 zip。
5. DINO 模型(subject_consistency,本地模式)
用途:
subject_consistency目标路径:
仓库:
dino_model/facebookresearch_dino_main/权重:
dino_model/dino_vitbase16_pretrain.pth
仓库地址:
https://github.com/facebookresearch/dino权重下载链接:
https://dl.fbaipublicfiles.com/dino/dino_vitbase16_pretrain/dino_vitbase16_pretrain.pth命令行示例(推荐):
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/dino_model"
cd "$CACHE_DIR/dino_model"
git clone https://github.com/facebookresearch/dino facebookresearch_dino_main || true
wget -O "$CACHE_DIR/dino_model/dino_vitbase16_pretrain.pth" \
"https://dl.fbaipublicfiles.com/dino/dino_vitbase16_pretrain/dino_vitbase16_pretrain.pth"
浏览器方式:
使用 Git GUI 或浏览器下载 dino 仓库 zip,解压后重命名目录为
facebookresearch_dino_main,放在$CACHE_DIR/dino_model/下。浏览器打开权重链接下载,并移动为
$CACHE_DIR/dino_model/dino_vitbase16_pretrain.pth。
6. Aesthetic Predictor(LAION)
用途:
aesthetic_quality目标路径:
aesthetic_model/emb_reader/sa_0_4_vit_l_14_linear.pth官方下载链接:
https://github.com/LAION-AI/aesthetic-predictor/blob/main/sa_0_4_vit_l_14_linear.pth?raw=true命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/aesthetic_model/emb_reader"
wget -O "$CACHE_DIR/aesthetic_model/emb_reader/sa_0_4_vit_l_14_linear.pth" \
"https://github.com/LAION-AI/aesthetic-predictor/blob/main/sa_0_4_vit_l_14_linear.pth?raw=true"
浏览器方式:打开链接(确保带有
?raw=true),下载后移动到目标路径。
7. MUSIQ / PyIQA 图像质量模型
用途:
imaging_quality目标路径:
pyiqa_model/musiq_spaq_ckpt-358bb6af.pth官方下载链接:
https://github.com/chaofengc/IQA-PyTorch/releases/download/v0.1-weights/musiq_spaq_ckpt-358bb6af.pth命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/pyiqa_model"
wget -O "$CACHE_DIR/pyiqa_model/musiq_spaq_ckpt-358bb6af.pth" \
"https://github.com/chaofengc/IQA-PyTorch/releases/download/v0.1-weights/musiq_spaq_ckpt-358bb6af.pth"
浏览器方式:下载后移动为
$CACHE_DIR/pyiqa_model/musiq_spaq_ckpt-358bb6af.pth。
8. GRiT 稠密标注模型
用途:
object_class、multiple_objects、color、spatial_relationship目标路径:
grit_model/grit_b_densecap_objectdet.pth官方下载链接:
原始:
https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/grit_b_densecap_objectdet.pth
命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/grit_model"
wget -O "$CACHE_DIR/grit_model/grit_b_densecap_objectdet.pth" \
"https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/grit_b_densecap_objectdet.pth"
浏览器方式:下载后移动为
$CACHE_DIR/grit_model/grit_b_densecap_objectdet.pth。
9. Tag2Text 场景描述模型
用途:
scene目标路径:
caption_model/tag2text_swin_14m.pth官方下载链接:
原始:
https://huggingface.co/spaces/xinyu1205/recognize-anything/resolve/main/tag2text_swin_14m.pth
命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/caption_model"
wget -O "$CACHE_DIR/caption_model/tag2text_swin_14m.pth" \
"https://huggingface.co/spaces/xinyu1205/recognize-anything/resolve/main/tag2text_swin_14m.pth"
浏览器方式:下载后移动为
$CACHE_DIR/caption_model/tag2text_swin_14m.pth。
10. ViCLIP 视频-文本模型 + BPE 词表
用途:
temporal_style、overall_consistency目标路径:
权重:
ViCLIP/ViClip-InternVid-10M-FLT.pth词表:
ViCLIP/bpe_simple_vocab_16e6.txt.gz(如需多份副本,可手动复制为bpe_simple_vocab_16e6.txt.gz.{1,2,3})
官方下载链接:
权重(原始):
https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/ViClip-InternVid-10M-FLT.pthBPE:
https://raw.githubusercontent.com/openai/CLIP/main/clip/bpe_simple_vocab_16e6.txt.gz
命令行示例:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/ViCLIP"
wget -O "$CACHE_DIR/ViCLIP/ViClip-InternVid-10M-FLT.pth" \
"https://huggingface.co/OpenGVLab/VBench_Used_Models/resolve/main/ViClip-InternVid-10M-FLT.pth"
wget -O "$CACHE_DIR/ViCLIP/bpe_simple_vocab_16e6.txt.gz" \
"https://raw.githubusercontent.com/openai/CLIP/main/clip/bpe_simple_vocab_16e6.txt.gz"
11. BERT base(bert-base-uncased)
用途:
Tag2Text与GRiT文本编码目标路径:
bert_model/bert-base-uncased/(完整 HF 仓库快照)搜索逻辑回顾:
优先使用环境变量
VBENCH_BERT_PATH指向的目录;否则尝试
CACHE_DIR/bert_model/bert-base-uncased;若仍不存在,则从 Hugging Face 在线下载。
方式 A:使用 huggingface-cli(推荐)
安装工具:
pip install "huggingface_hub[cli]"
登录(如必要,可选):
huggingface-cli login下载到缓存目录:
export CACHE_DIR=${VBENCH_CACHE_DIR:-$HOME/.cache/vbench}
mkdir -p "$CACHE_DIR/bert_model/bert-base-uncased"
huggingface-cli download bert-base-uncased \
--local-dir "$CACHE_DIR/bert_model/bert-base-uncased" \
--local-dir-use-symlinks False
如希望通过
VBENCH_BERT_PATH指定该目录:
export VBENCH_BERT_PATH="$CACHE_DIR/bert_model/bert-base-uncased"
方式 B:浏览器或其他方式
在浏览器中访问
https://huggingface.co/bert-base-uncased,下载整个模型仓库(例如使用 “Download files” 或 git lfs)。将包含
config.json、pytorch_model.bin、vocab.txt等文件的目录重命名为bert-base-uncased,并放到:
$CACHE_DIR/bert_model/bert-base-uncased/
可选:设置
VBENCH_BERT_PATH指向该目录。
备注:与一键脚本的配合
手动下载完成后,可以选择不再运行
scripts/download_vbench_cache.sh,只要路径和文件名与本说明一致,VBench 即可正常读取。如之后仍运行一键脚本,它会在文件旁边补充
.done标记文件,用于下次跳过下载;这不会覆盖你已经手动放置的内容。若你使用 Hugging Face 镜像站,只需在上述链接中将前缀替换为镜像域名即可,其余路径和放置方式保持不变。