VBench 视频生成能力评估报告

生成模型:Seedance (doubao-seedance-2-0-260128) • 评测方法:Whaleze AI 3.0(VBench 代理评测) • 生成时间:2026-06-07 15:13:51
8.35/10
VBench 综合评分 • 98 个视频 • 11 个评测维度

概览统计

98
成功生成视频数
100
提示词总数
11
已评估维度
Seedance
文生视频模型
Whaleze AI
AI 测评引擎
5s / 720p
视频规格
~2小时
总测试耗时
2 个
生成失败

类别表现

时间质量
7.58/10
视觉质量
9.11/10
语义质量
8.48/10

各维度评分

外观风格
9.44
颜色
9.11
人物动作
6.80
多对象
7.89
对象类别
9.22
整体一致性
8.11
场景
9.00
空间关系
8.89
主体一致性
8.12
时间闪烁
6.50
时间风格
8.62

维度详细数据

评测维度 主要得分 所有子维度均值 最低分 最高分 视频数
外观风格 9.44 8.359109
颜色 9.11 8.108109
人物动作 6.80 7.563910
多对象 7.89 7.71499
对象类别 9.22 8.218109
整体一致性 8.11 8.135109
场景 9.00 8.3581010
空间关系 8.89 7.886109
主体一致性 8.12 8.105108
时间闪烁 6.50 7.574108
时间风格 8.62 7.955108

评测方法

视频生成流程

从 VBench 数据集中按分层抽样选取了 100 个提示词,涵盖 11 个评测维度(每个维度约 9 个提示词)。每个提示词提交至 Seedance API (doubao-seedance-2-0-260128),生成 5 秒 720p 视频(16:9 比例)。其中 98 个成功,2 个因版权限制失败。

评测方法

由于无法使用 GPU 原生运行 VBench,本测试采用了两阶段 AI 代理评测方案:

  1. 视频描述:每个视频由 Whaleze AI 3.0(GPT-4V 级别多模态模型)分析,生成包含对象、运动、视觉质量和提示词契合度的详细描述。
  2. 维度评分:AI 基于视频内容和生成的描述,在 1-10 分制上对每个视频的所有 17 个 VBench 维度进行评分。

⚠ 重要提示:本报告为 AI 代理评测结果。评分由 Whaleze AI 模型估算得出,可能与使用专用模型(ImageReward、V-JEPA、AMT 等)计算的原生 VBench 分数存在差异。仅供参考相对对比使用。

⚠ 覆盖说明:17 个 VBench 维度中有 6 个(background_consistency、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality、overall_quality)未包含在采样提示词中。已评估的 11 个维度覆盖了全部三个质量类别。

VBench 基准测试介绍

视频生成模型的全面评测体系

什么是 VBench?

VBench 是由上海人工智能实验室(Shanghai AI Lab)联合南洋理工大学、香港中文大学等机构推出的视频生成模型综合评测基准。它旨在系统化地评估文生视频(Text-to-Video)模型的质量,通过多个细分维度对视频生成效果进行量化评分,为模型能力的对比与迭代提供客观参考标准。

VBench 覆盖从底层视觉质量到高层语义理解的全面评估体系,已成为业界衡量视频生成模型能力的主流标准之一。其评估维度按类别分为三组:视频质量视频条件一致性语义理解

VBench 核心评测维度

VBench 共包含 17 个细分评测维度,本测试覆盖了其中 11 个维度:

时间质量 — 视频的时间维度表现

主体一致性 (Subject Consistency)
评估视频中主体对象的外观是否在帧间保持一致,如人物、动物、物体不出现变形或突变。
背景一致性 (Background Consistency)
评估视频背景场景的整体稳定性和一致性,背景元素不出现闪烁或突变。
时间闪烁 (Temporal Flickering)
检测视频中是否存在帧间不连续的闪烁现象,评估时间平滑度。
运动平滑度 (Motion Smoothness)
评估视频中物体运动的自然流畅程度,避免出现卡顿、跳动或不自然的运动轨迹。
动态程度 (Dynamic Degree)
衡量视频中的运动量和动态范围,评估模型生成丰富动态内容的能力。

视觉质量 — 单帧画面质量

美学质量 (Aesthetic Quality)
评估视频帧的整体美学吸引力,包括构图、色彩搭配、光影效果等艺术性指标。
成像质量 (Imaging Quality)
评估生成视频的技术质量,包括清晰度、噪点水平、压缩伪影等。

语义质量 — 内容与提示词的契合度

对象类别 (Object Class)
评估视频是否正确生成了提示词中指定的物体类别(如猫、汽车、树等)。
多对象 (Multiple Objects)
评估视频中是否同时正确生成了提示词中提到的多个不同对象。
人物动作 (Human Action)
评估视频中人物动作是否符合提示词描述,动作是否自然、准确。
颜色 (Color)
评估视频中主体对象的颜色是否与提示词指定的颜色一致。
空间关系 (Spatial Relationship)
评估视频中多个对象之间的空间位置关系是否符合提示词描述。
场景 (Scene)
评估视频场景环境与提示词描述的场景是否匹配(如海滩、森林、城市等)。
外观风格 (Appearance Style)
评估视频的视觉风格是否符合提示词指定的风格(如油画、像素风、赛博朋克等)。
时间风格 (Temporal Style)
评估视频的镜头运动风格是否符合提示词要求(如平移、缩放、慢动作等)。
整体一致性 (Overall Consistency)
综合评估视频各维度之间的一致性,确保整体效果的协调统一。
整体质量 (Overall Quality)
对所有维度的综合评估,反映视频的整体生成质量水平。

VBench 的重要意义

标准化
统一评测标准,便于不同模型横向对比
细粒度
17 个维度精细刻画模型优劣势
自动化
基于专用AI模型自动评分,客观高效
可复现
开放数据集和评测代码,确保结果可复现

测试流程详解

从提示词选择到评测报告生成,端到端全流程自动化

流程总览

📋
选择提示词
100 个 VBench 提示词
🎥
文生视频
Seedance API
生成 5s/720p 视频
📝
视频理解
Whaleze AI
视频转文字描述
📊
VBench 评分
多维度自动化打分
📄
生成报告
综合评测报告

详细步骤

1

提示词选择

从 VBench 数据集的 prompts/ 目录中按分层抽样选取 100 个提示词,覆盖 11 个评测维度,确保每个维度有足够的测试样本。

数据来源:prompts/*.txt → selected_prompts.json

2

调用文生视频 API

将 100 个提示词逐一提交至豆包 Seedance API (doubao-seedance-2-0-260128),生成 5 秒 720p 视频(16:9)。100 个任务中 98 个成功,2 个因版权限制被拒绝。

输出:generated-video/*.mp4 + generation_log.json

3

视频转文字理解

Whaleze AI 3.0 对每个生成视频进行多模态理解分析,生成详细文字描述,覆盖对象、运动、视觉质量和提示词契合度。

输出:video2txt/*.txt + videotxt_log.json

4

VBench 多维度评分

Whaleze AI 基于视频内容和生成的描述,对每个视频在全部 17 个 VBench 子维度上进行 1-10 评分,并计算各维度统计指标。

输出:results/vbench_scores.json
results/vbench_results.json

5

生成评测报告

汇总所有评分数据,计算类别平均分和综合得分,进行数据可视化,形成本份完整的 HTML 评测报告,包含交互式数据浏览。

输出:index.html(本报告)

技术栈与工具链

环节技术/工具说明
提示词选择VBench 数据集从官方 VBench prompt 库中分层抽样选取 100 个提示词
文生视频Seedance API豆包大模型文生视频接口,生成 720p/5s/16:9 视频
视频理解Whaleze AI 3.0GPT-4V 级别多模态大模型,实现视频到文字描述的转换
维度评分Whaleze AI 3.0基于视频内容和文字描述,按 VBench 标准进行 17 维度评分
数据汇总Python / JSON分数聚合、统计计算,输出结构化 JSON 数据
报告生成HTML / CSS / JS交互式单页报告,支持数据筛选、排序和视频预览

过程数据

数据文件说明链接
selected_prompts.json100 个分层抽样选中的提示词查看文件 →
generation_log.json98 个视频生成详细日志(含 task_id、耗时、文件大小等)查看文件 →
videotxt_log.json98 个视频的文字描述生成日志查看文件 →
vbench_scores.json98 个视频的逐个维度评分详情(含 AI 原始响应)查看文件 →
vbench_results.json按维度聚合的统计评分(均值/最大/最小/类别)查看文件 →

提示词数据

VBench 分层抽样选取的 100 个提示词,按评测维度分类展示
共 100 条
序号 评测维度 提示词(英文原文) 提示词(中文翻译)

视频生成数据

98 个成功生成的视频详情,含生成参数、文件信息和视频预览
共 100 条记录
序号 维度 提示词 状态 文件大小 视频预览 文字描述

结果数据详情

98 个视频在各评测维度上的详细得分及 AI 评估原始输出
维度 主得分 主体一致性 背景一致性 时间闪烁 运动平滑 动态程度 美学质量 成像质量 对象类别 多对象 人物动作 颜色 空间关系 场景 时间风格 整体一致性
共 98 条
视频 维度 提示词 主得分 原始评估

子维度交叉分析

以下展示各维度下所有子维度的平均得分,颜色深浅反映评分高低(深色=高分,浅色=低分)。