| 评测维度 | 主要得分 | 所有子维度均值 | 最低分 | 最高分 | 视频数 |
|---|---|---|---|---|---|
| 外观风格 | 9.44 | 8.35 | 9 | 10 | 9 |
| 颜色 | 9.11 | 8.10 | 8 | 10 | 9 |
| 人物动作 | 6.80 | 7.56 | 3 | 9 | 10 |
| 多对象 | 7.89 | 7.71 | 4 | 9 | 9 |
| 对象类别 | 9.22 | 8.21 | 8 | 10 | 9 |
| 整体一致性 | 8.11 | 8.13 | 5 | 10 | 9 |
| 场景 | 9.00 | 8.35 | 8 | 10 | 10 |
| 空间关系 | 8.89 | 7.88 | 6 | 10 | 9 |
| 主体一致性 | 8.12 | 8.10 | 5 | 10 | 8 |
| 时间闪烁 | 6.50 | 7.57 | 4 | 10 | 8 |
| 时间风格 | 8.62 | 7.95 | 5 | 10 | 8 |
从 VBench 数据集中按分层抽样选取了 100 个提示词,涵盖 11 个评测维度(每个维度约 9 个提示词)。每个提示词提交至 Seedance API (doubao-seedance-2-0-260128),生成 5 秒 720p 视频(16:9 比例)。其中 98 个成功,2 个因版权限制失败。
由于无法使用 GPU 原生运行 VBench,本测试采用了两阶段 AI 代理评测方案:
⚠ 重要提示:本报告为 AI 代理评测结果。评分由 Whaleze AI 模型估算得出,可能与使用专用模型(ImageReward、V-JEPA、AMT 等)计算的原生 VBench 分数存在差异。仅供参考相对对比使用。
⚠ 覆盖说明:17 个 VBench 维度中有 6 个(background_consistency、motion_smoothness、dynamic_degree、aesthetic_quality、imaging_quality、overall_quality)未包含在采样提示词中。已评估的 11 个维度覆盖了全部三个质量类别。
VBench 是由上海人工智能实验室(Shanghai AI Lab)联合南洋理工大学、香港中文大学等机构推出的视频生成模型综合评测基准。它旨在系统化地评估文生视频(Text-to-Video)模型的质量,通过多个细分维度对视频生成效果进行量化评分,为模型能力的对比与迭代提供客观参考标准。
VBench 覆盖从底层视觉质量到高层语义理解的全面评估体系,已成为业界衡量视频生成模型能力的主流标准之一。其评估维度按类别分为三组:视频质量、视频条件一致性和语义理解。
VBench 共包含 17 个细分评测维度,本测试覆盖了其中 11 个维度:
从 VBench 数据集的 prompts/ 目录中按分层抽样选取 100 个提示词,覆盖 11 个评测维度,确保每个维度有足够的测试样本。
数据来源:prompts/*.txt → selected_prompts.json
将 100 个提示词逐一提交至豆包 Seedance API (doubao-seedance-2-0-260128),生成 5 秒 720p 视频(16:9)。100 个任务中 98 个成功,2 个因版权限制被拒绝。
输出:generated-video/*.mp4 + generation_log.json
由 Whaleze AI 3.0 对每个生成视频进行多模态理解分析,生成详细文字描述,覆盖对象、运动、视觉质量和提示词契合度。
输出:video2txt/*.txt + videotxt_log.json
Whaleze AI 基于视频内容和生成的描述,对每个视频在全部 17 个 VBench 子维度上进行 1-10 评分,并计算各维度统计指标。
输出:results/vbench_scores.json
results/vbench_results.json
汇总所有评分数据,计算类别平均分和综合得分,进行数据可视化,形成本份完整的 HTML 评测报告,包含交互式数据浏览。
输出:index.html(本报告)
| 环节 | 技术/工具 | 说明 |
|---|---|---|
| 提示词选择 | VBench 数据集 | 从官方 VBench prompt 库中分层抽样选取 100 个提示词 |
| 文生视频 | Seedance API | 豆包大模型文生视频接口,生成 720p/5s/16:9 视频 |
| 视频理解 | Whaleze AI 3.0 | GPT-4V 级别多模态大模型,实现视频到文字描述的转换 |
| 维度评分 | Whaleze AI 3.0 | 基于视频内容和文字描述,按 VBench 标准进行 17 维度评分 |
| 数据汇总 | Python / JSON | 分数聚合、统计计算,输出结构化 JSON 数据 |
| 报告生成 | HTML / CSS / JS | 交互式单页报告,支持数据筛选、排序和视频预览 |
| 序号 | 评测维度 | 提示词(英文原文) | 提示词(中文翻译) |
|---|
| 序号 | 维度 | 提示词 | 状态 | 文件大小 | 视频预览 | 文字描述 |
|---|
| 维度 | 主得分 | 主体一致性 | 背景一致性 | 时间闪烁 | 运动平滑 | 动态程度 | 美学质量 | 成像质量 | 对象类别 | 多对象 | 人物动作 | 颜色 | 空间关系 | 场景 | 时间风格 | 整体一致性 |
|---|
| 视频 | 维度 | 提示词 | 主得分 | 原始评估 |
|---|
以下展示各维度下所有子维度的平均得分,颜色深浅反映评分高低(深色=高分,浅色=低分)。