现有的指令式视频编辑(Instruction-based Video Editing, IVE)数据集通常局限于单任务外观级编辑,无法满足现实场景中复杂的创作需求。为弥合这一鸿沟,作者提出 Goku——一个包含 200 万高质量、指令对齐视频编辑对的大规模数据集,是首个将任务边界从基本外观编辑扩展至多任务与结构化操控(例如对主体运动的精确控制)的数据集。
为应对复杂任务的数据合成挑战,本文设计了一个高效的数据合成流水线,将复杂编辑分解为可控的子问题;并引入渐进式过滤系统贯穿整个流程保证数据可靠性。此外,作者探索了 Goku 上的最优网络结构,提出 Goku-Edit:以 MLLM 作为文本编码器,采用解耦的双分支设计——一个专用掩码分支处理结构控制,让主分支专注外观渲染。
作者还推出了Goku-Bench——一个包含 1000 个人工核验测试用例与 7 个新颖编辑专属指标的综合基准。评测显示,Goku-Edit 在指令跟随方面较其他开源模型取得高达 +8% 的提升。
生成式 AI 的迅速发展重塑了数字内容创作,正从简单的视频合成迈向更具挑战的领域。指令式视频编辑 (IVE) 通过合成视频三元组,为用户提供了直观灵活的接口,使专业级视频制作走向大众化。然而当前 SOTA 方法仍局限于单任务、外观级的修改(如物体移除、单属性变更)。
Goku 首次显式地将 IVE 数据集从孤立任务集合升级为一个覆盖广泛挑战的综合谱系:
Goku 是迄今最大的 IVE 数据集,200 万高质量视频对,首次覆盖复杂结构与多任务编辑。
可扩展的自动化数据流水线,配备渐进式过滤系统,保证语义精确性与时序一致性。
Goku-Edit 通过 MLLM 文本编码器与掩码预测新分支,将高层语义推理与精确空间操控相桥接。
Goku-Bench 提供 1000 个人工核验用例、7 个专用指标,为评估复杂视频编辑树立新标准。
然而上述方法多聚焦于单任务外观编辑,在复杂结构化编辑上仍力不从心。
| 维度 | Goku (本文) | Ditto | Señorita-2M | InsViE | OpenVE-3M |
|---|---|---|---|---|---|
| 数据规模 | 2M | 1M | 2M | 1M | 3M |
| 分辨率 | 720p | 720p | 336×592~1120×1984 | 576p | 720p |
| 每视频帧数 | 65~129 | 101 | 33~64 | 25 | 65~129 |
| 基础编辑 | ✓ | ✓ | ✓ | ✓ | ✓ |
| 相机运动 | ✓ | ✗ | ✗ | ✗ | ✓ |
| 主体运动 | ✓ | ✗ | ✗ | ✗ | ✗ |
| 参考图编辑 | ✓ | ✗ | ✗ | ✗ | ✗ |
| 多任务编辑 | ✓ (2-5 任务) | ✗ | ✗ | ✗ | ✗ |
| MLLM 依赖 | Gemini 2.5-Pro | Qwen-VL | Llama 3.2-8B | GPT-4o | GPT-4o |
| 配套 Benchmark | ✓ Goku-Bench | ✗ | ✗ | ✗ | ✓ OpenVE-Bench |
起始于 Koala-36M 提供的原始视频,作者从中筛选出 100 万高质量视频片段,过滤流水线包括:
每段视频被裁剪为 3 到 10 秒以突出连贯的动作与场景。
基于物体标签,采用 Grounded-SAM2 抽取时序掩码;再由 Gemini2.5-Pro 分析编辑区域的光照与物体姿态,生成对应环境下相似物体的参考图,作为空间与外观条件。
本文首次为 Subject Movement 与 Camera Movement 构建大规模配对数据。
基于 MLLM 生成的任务分解,逐步执行单任务序列,前一步的输出作为后一步的输入,整体质量由渐进式过滤系统保障。
Reference Swap / Add 需要模型依据用户参考图执行编辑。由于参考图是用掩码从原视频裁剪,模型可能退化为像素级复制。因此作者采用 Flux 对参考图重绘,提供带姿态偏移、光照变化与背景替换的扰动参考图。
视频预处理阶段:美学评分、运动动态分析、镜头切换检测、OCR 水印移除,最后由 Gemini2.5-Pro 做内容丰富度筛查,得到共享的 100 万高质量源片段。
数据生成前校验中间表示:以 IoU 阈值检验掩码完整性;Gemini2.5-Pro 校验编辑目标与指令的语义一致性、参考图的视觉合理性;不合格样本直接丢弃,避免昂贵合成阶段的浪费。
双层评估:低层视觉——帧间一致性、频域伪影检测、美学重打分;高层语义——由 Gemini2.5-Pro 评估编辑准确性与真实感。约 88% 的合成样本会被过滤,最终保留最高质量数据。
Goku-Edit 由三大核心组件构成:双分支模型架构、RoPE 对齐的空间交叉注意力、以及推理期的 SpatialCFG。
两分支基于预训练 Wan2.2-5B 改造。文本编码器采用冻结的 Qwen3VL-8B (MLLM),同时服务两条分支以增强复杂指令理解。VAE 将 Ir, Vs, Ve, Vd, M 编码为潜在表示 zr, zs, ze, zd, zm。
沿时间维拼接条件与噪声潜在,分别送入两分支预测噪声。
掩码分支运行于 1/n 空间分辨率,两分支的 token 对应不同离散坐标网格。RoPE 注意力权重依赖于相对偏移 j - k,若直接跨分辨率计算,会引入因网格不匹配导致的宏观偏移,进而在特征内积中注入不必要的旋转相位惩罚,抑制空间对应 token 之间的注意力。
在计算 RoPE 之前,将掩码分支的位置索引乘以因子 n:将掩码 token 位置 (x, y) 映射到高分辨率坐标 (nx, ny),而不修改 RoPE 频率基。
宏观错位由此消除:δ=0 时旋转矩阵为 I,非重合 token 对的偏移仍与真实物理距离成比例,跨分辨率保留了 RoPE 的局部性偏置。
zeupdated = ze + Δze。zmupdated = zm + Δzm。标准文本 CFG 只放大文本条件信号,无法进一步强化掩码分支带来的空间约束,容易在复杂结构化编辑中产生边界漂移与"编辑外溢"。作者提出 SpatialCFG——一种免训练的推理期策略,通过对比"耦合预测"与"解耦基线"来显式放大跨分支空间约束:
ε̂duale/m(z'e,t, z'm,t);ε̂indepe(z'e,t, znullm,t) 与 ε̂indepm(z'm,t, znulle,t);两基线均保留文本条件与分支内计算。其中 se 抑制编辑区域外的意外修改,sm 精修掩码边界一致性。SpatialCFG 与文本 CFG 正交组合:
从 Koala-36M 精选 1000 段高质量、有挑战性的视频,选择标准包括分辨率 ≥720p、时长 3-10 秒、运动复杂度等。测试集覆盖:
Goku-Bench 提出 4 个通用编辑指标 + 3 个任务专属指标,均通过 Gemini2.5-Pro 或专家算法自动评估。
评估编辑结果在运动与交互层面是否符合真实世界物理规律,聚焦物理交互的合理性。
评估主体与场景之间的空间排布是否严格符合编辑指令。
综合评估模型对复杂多任务编辑指令的完整执行程度。
从视觉自然度与编辑一致性双视角进行整体评估。
用 Gemini2.5-Pro 打分主体运动轨迹的真实感与流畅度;与 PR(评估整体物理交互)区别在于 SuM 专注于主体运动轨迹本身。
基于光流分析识别并评估视频帧间的运动类型是否与相机指令匹配。
计算与风格文本对应的参考风格图像与生成视频帧之间的 DINO 特征相似度,量化风格迁移准确率。
此外还沿用 VBench 的通用视频质量指标(SC、BC、CLIP、FVD、TC、MS、AES 等)。
开源方法:TokenFlow、InsV2V、StableV2V、InsViE、AnyV2V、Omni-Video、LucyEdit
闭源商业模型:Runway Gen-4、Luma Ray3
另外在 EditVerse-Bench 上进行泛化性评估(详见补充材料)。
| 模型 | 开源 | SC↑ | BC↑ | CLIP↑ | FVD↓ | TC↑ | MS↑ | AES↑ | ST↑ | SuM↑ | CM↑ | PR↑ | SR↑ | IF↑ | EQ↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| TokenFlow | ✓ | 0.911 | 0.131 | 4539.82 | - | 0.899 | 0.94 | 0.42 | 0.514 | 0.426 | 0.457 | 0.34 | 0.63 | 0.44 | 0.32 |
| InsV2V | ✓ | 0.915 | 0.122 | 3988.01 | - | 0.951 | 0.96 | 0.56 | 0.485 | 0.533 | 0.542 | 0.358 | 0.284 | 0.391 | 0.317 |
| StableV2V | ✓ | 0.938 | 0.257 | 3129.58 | - | 0.921 | 0.97 | 0.45 | 0.642 | 0.545 | 0.631 | 0.297 | 0.331 | 0.375 | 0.304 |
| InsViE | ✓ | 0.929 | 0.379 | 2314.89 | - | 0.953 | 1.08 | 0.47 | 0.535 | 0.438 | 0.597 | 0.382 | 0.273 | 0.349 | 0.361 |
| AnyV2V | ✓ | 0.922 | 0.243 | 2876.93 | - | 0.915 | 0.93 | 0.39 | 0.598 | 0.598 | 0.494 | 0.312 | 0.366 | 0.259 | 0.388 |
| Omni-Video | ✓ | 0.966 | 0.369 | 1032.08 | - | 0.947 | 1.03 | 0.43 | 0.614 | 0.597 | 0.481 | 0.58 | 0.631 | 0.51 | 0.59 |
| LucyEdit | ✓ | 0.926 | 0.361 | 1420.36 | - | 0.954 | 0.95 | 0.51 | 0.694 | 0.598 | 0.637 | 0.476 | 0.755 | 0.549 | 0.579 |
| Ours (Goku-Edit) | ✓ | 0.969 | 0.432 | 993.93 | - | 0.955 | 1.15 | 0.59 | 0.955 | 0.633 | 0.927 | 0.738 | 0.832 | 0.627 | 0.645 |
| Runway (闭源) | ✗ | 0.958 | 0.472 | 1038.52 | - | 0.947 | 1.33 | 0.65 | 0.968 | 0.614 | 0.891 | 0.705 | 0.793 | 0.758 | 0.782 |
| Luma (闭源) | ✗ | 0.951 | 0.461 | 1095.64 | - | 0.940 | 1.29 | 0.63 | 0.957 | 0.601 | 0.872 | 0.681 | 0.769 | 0.741 | 0.761 |
| 模型 | 开源 | ID一致↑ | SC↑ | BC↑ | CLIP↑ | FVD↓ | TC↑ | MS↑ | AES↑ | PR↑ | SR↑ | IF↑ | EQ↑ |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| StableV2V | ✓ | 0.41 | 0.931 | 0.382 | 2401.55 | - | 0.948 | 1.06 | 0.45 | 0.491 | 0.762 | 0.558 | 0.583 |
| AnyV2V | ✓ | 0.45 | 0.925 | 0.255 | 2750.11 | - | 0.919 | 0.94 | 0.41 | 0.533 | 0.78 | 0.572 | 0.591 |
| Ours (Goku-Edit) | ✓ | 0.54 | 0.968 | 0.417 | 925.55 | - | 0.958 | 1.17 | 0.52 | 0.718 | 0.832 | 0.851 | 0.824 |
| Runway | ✗ | 0.58 | 0.954 | 0.465 | 1028.73 | - | 0.948 | 1.32 | 0.63 | 0.691 | 0.802 | 0.872 | 0.848 |
| Luma | ✗ | 0.55 | 0.947 | 0.453 | 1081.29 | - | 0.943 | 1.28 | 0.61 | 0.668 | 0.785 | 0.858 | 0.831 |
| 数据集 | 样本数 | CLIP↑ | FVD↓ | TC↑ | IF↑ | EQ↑ |
|---|---|---|---|---|---|---|
| InsV2V | 50k | 0.3421 | 3102.15 | 0.891 | 0.298 | 0.241 |
| InsViE | 50k | 0.3398 | 2843.67 | 0.873 | 0.301 | 0.253 |
| Señorita | 50k | 0.3502 | 2761.44 | 0.868 | 0.289 | 0.278 |
| Ours (未过滤) | 50k | 0.3541 | 2512.08 | 0.862 | 0.318 | 0.331 |
| Ours (过滤后) | 50k | 0.3780 | 1380.45 | 0.881 | 0.501 | 0.522 |
| Ours (过滤后) | 100k | 0.3891 | 1241.33 | 0.893 | 0.519 | 0.538 |
未过滤的 Goku 已超越所有已有数据集,说明任务覆盖扩展本身即带来实质收益;应用渐进式过滤后 IF 与 EQ 大幅提升;扩展至 100k 样本仍持续改善,表明性能尚未饱和。
| MLLM | Dual-Branch | RoPE 对齐 | SpatialCFG | PR↑ | SR↑ | IF↑ | EQ↑ |
|---|---|---|---|---|---|---|---|
| - | - | - | - | 0.651 | 0.743 | 0.541 | 0.578 |
| ✓ | - | - | - | 0.664 | 0.756 | 0.573 | 0.591 |
| ✓ | ✓ | - | - | 0.695 | 0.789 | 0.588 | 0.612 |
| ✓ | ✓ | ✓ | - | 0.718 | 0.819 | 0.608 | 0.631 |
| ✓ | ✓ | ✓ | ✓ | 0.738 | 0.832 | 0.627 | 0.645 |
n = 1:两分支解耦不足,服装光滑但缺乏纹理。n = 2 / 4:细节逐步恢复,n = 4 达到最佳——纹理完整、定位精确,作为默认配置。n = 8:结构信号退化,出现定位失败。| 方法 | IF↑ | VQ↑ | TC↑ |
|---|---|---|---|
| InsV2V | 3.30 | 3.10 | 3.18 |
| InsViE | 3.42 | 3.18 | 3.25 |
| Omni-Video | 3.75 | 3.82 | 3.90 |
| LucyEdit | 4.05 | 4.12 | 4.08 |
| Goku-Edit | 4.58 | 4.51 | 4.65 |
Goku-Edit 一致排名第一,尤其在保持非编辑区域与处理复杂运动指令方面优势显著。
本文围绕指令式视频编辑的核心瓶颈,提出:
实证结果表明,基于 Goku 训练的模型在多个任务与指标上一致优于此前数据集与 SOTA 方法,成为指令式视频编辑领域的新标杆。
贯穿数据合成的核心思想——将复杂编辑(风格迁移、位置迁移、多任务)拆解为可控的独立子任务,由专家模型分别处理,再通过过滤系统防止误差累积。
掩码分支专责结构约束、主分支专责外观渲染,通过双向交叉注意力互相沟通,兼顾精确定位与细节生成。
不改动频率基,仅将掩码分支位置索引乘以 n 映射至高分辨率坐标,消除跨分辨率宏观错位,保留局部性偏置。
推理期免训练策略,通过对比"耦合 / 解耦"预测显式放大跨分支空间约束,正交组合于文本 CFG。
三阶段(源视频→条件校验→合成后校验),最终过滤约 88% 样本,与 Gemini2.5-Pro 深度联动。
Grounded-SAM2(掩码)、Flux(图像编辑/参考图/首帧风格化)、VACE(外观编辑基座)、Wan2.2(视频合成)、RecamMaster(相机运动)、Minimax-Remover(Add/Remove 对偶)。
本节将论文分散的关键洞察与实现细节汇编成"可执行的复现指南"。标注 [明确] 的项目在原文/表格/图注中直接给出;标注 [推断] 的项目基于 Wan2.2/VACE 家族默认设置或来源模型的官方文档合理推断,复现前请再核对补充材料。
| 项 | 值 | 说明 / 来源 |
|---|---|---|
| 源视频库 | Koala-36M | [明确] 从中筛出 1M 高质量片段作为源 |
| 片段时长 | 3 - 10 s | [明确] 突出连贯动作与场景 |
| 分辨率 | ≥ 720p | [明确] 每段视频 65~129 帧 |
| 过滤组件 | — | 镜头切换检测 + 美学评分 + 运动动态分析 + OCR 水印移除 + Gemini2.5-Pro 内容丰富度筛查 |
| 指令生成 MLLM | Gemini 2.5-Pro | [明确] 数据管线中一切语义任务都用它;作者也提供 Qwen3VL-30B 的开源替代版 |
| 任务 | 专家模型 | 输入 → 输出 |
|---|---|---|
| Remove | Minimax-Remover | 源视频 + 时序掩码 → 移除后视频 |
| Add | —(对偶自 Remove) | 把 Remove 样本的 (in, out) 反转即可 |
| Swap / Alter | VACE | 源视频 + Grounded-SAM2 掩码 + Flux 参考图 → 编辑后视频 |
| Style Transfer | Flux → 深度提取 → VACE | 3 步:首帧风格化 → 逐帧深度图 → 深度序列 + 风格化首帧输入 VACE 传播 |
| Camera Movement | RecamMaster | 源视频 + 相机运动指令 → 新相机轨迹视频(20+ 模式;复杂运动分解为基础序列) |
| Subject Movement (action) | Wan2.2 | Gemini 生成两个动作描述 (walking→running),同 subject 独立合成两条视频 |
| Subject Movement (position) | Flux → Wan2.2 | Flux 在首帧移动物体 → Wan2.2 从新首帧扩展成连贯视频 |
| Reference Add / Swap | Flux 重绘参考图 → VACE | 关键:参考图必须做扰动(姿态/光照/背景),否则模型退化为像素复制 |
| Multi-Task Edit | 专家模型串行 | Gemini 分解为 2-5 个子任务,前一步输出 = 后一步输入,中间过 Tier-3 过滤 |
| 阶段 | 过滤器 | 阈值 / 判据 |
|---|---|---|
| Tier 1: 源视频 | Koala-36M → 1M | 综合美学 + 运动 + 切换 + OCR + Gemini 内容丰富度;具体阈值见补充材料 |
| Tier 2: 条件校验 | 掩码完整度 (IoU) | [明确] IoU 阈值过滤(论文未给具体数值——建议先用 IoU ≥ 0.7 起步) |
| Tier 2: 条件校验 | Gemini2.5-Pro | 校验(编辑目标 ↔ 指令)语义一致;参考图视觉合理性;任一不过则丢 |
| Tier 3: 合成后 | 低层视觉 | 帧间一致性 + 频域伪影检测 + 美学重打分 |
| Tier 3: 合成后 | 高层语义 (Gemini) | 编辑准确性 + 真实感;三维评分:instruction alignment、frame stability、photorealism |
| 整体丢弃率 | ~88% | [明确] 合成 100 例只保留约 12 例;因此为得到 200 万,实际合成量约 1670 万 |
| 组件 | 配置 | 说明 |
|---|---|---|
| 主分支基座 | Wan2.2-5B | [明确] 视频扩散主干,两分支共享同一预训练权重后独立微调 |
| 掩码分支基座 | Wan2.2-5B | [明确] 结构相同但输入通道不同(M vs Ve) |
| 文本编码器 | Qwen3VL-8B (frozen) | [明确] MLLM 冻结,仅 diffusion 分支训练 |
| Latent 编码器 | 预训练 VAE | [明确] 用于 Ir, Vs, Ve, Vd, M;Wan2.2 官方 3D VAE |
| 空间下采样因子 n | n = 4 | [明确] 消融最佳;n=1 纹理糊,n=8 定位失败 |
| 条件拼接维度 | 时间维 [zr, zs, ze,t]T | [明确] 沿 T 拼接而非 C,重用 Wan 的时空注意力 |
| M2V / V2M 交叉注意力 | 每 Wan Attention Block 后串接 | [明确] 见 Fig 3;两个方向都做 |
| RoPE Scaling 因子 | × n = × 4 | [明确] 掩码分支位置索引乘 n;不改频率基 |
| 系数 | 作用 | 建议值 |
|---|---|---|
| se | video 分支跨分支增量放大——抑制编辑外溢 | [推断] 在 3~5 之间搜索(论文未给具体值,参考 Wan/CFG 家族常用值) |
| sm | mask 分支跨分支增量放大——细化边界 | [推断] 3~5 |
| stext | 标准文本 CFG | [推断] Wan2.2 官方默认 5.0~7.5 |
| 每步前向次数 | 4 | = 2 (dual/indep) × 2 (cond/uncond),是标准 CFG 的 2× |
| 项 | 值 | 来源 |
|---|---|---|
| 训练样本量 | 50k / 100k | [明确] Table 3 数据消融 |
| 训练步数 | 6k steps | [明确] Table 3 备注 |
| Batch / LR / Optimizer | — | [未给] 论文正文与消融表均未列出;建议参考 Wan2.2-5B 微调默认值(batch 效应等价 >=64、LR 1e-5、AdamW) |
| 训练硬件 | — | [未给] 5B × 双分支 + Wan 3D 注意力,建议至少 8×A100/H100 |
# 每次训练迭代 def training_step(batch): # 1. 编码所有条件与目标 z_r = vae.encode(batch.ref_image) # 参考图 z_s = vae.encode(batch.src_video) # 源视频 z_e = vae.encode(batch.edit_video) # GT 编辑视频 z_d = vae.encode(downsample(batch.src_video, n=4)) # 1/n 分辨率源 z_m = vae.encode(batch.mask_video) # GT 编辑区域掩码 T_p = mllm_encoder.encode(batch.instruction) # frozen Qwen3VL-8B # 2. 加噪 t = sample_timestep() z_e_t = q_sample(z_e, t); z_m_t = q_sample(z_m, t) # 3. 组装分支输入 (公式 1) z_e_prime = concat([z_r, z_s, z_e_t], dim=T) z_m_prime = concat([z_d, z_m_t], dim=T) # 4. 双分支联合前向 (含 M2V + V2M 交叉注意力) for block in zip(video_branch.blocks, mask_branch.blocks): h_e = video_block.self_attn(h_e, T_p) h_m = mask_block.self_attn(h_m, T_p) # RoPE Scaling: 掩码 token 位置索引 × n pos_m_scaled = mask_positions * n # M2V: 视频 Q ← 掩码 KV h_e = h_e + cross_attn(Q=h_e, KV=h_m, Q_pos=video_positions, KV_pos=pos_m_scaled) # V2M: 掩码 Q ← 视频 KV (闭环,防边界飘) h_m = h_m + cross_attn(Q=h_m, KV=h_e, Q_pos=pos_m_scaled, KV_pos=video_positions) eps_e_pred = video_branch.head(h_e) eps_m_pred = mask_branch.head(h_m) # 5. 双分支加权 diffusion 损失 loss = mse(eps_e_pred, gt_noise_e) + λ * mse(eps_m_pred, gt_noise_m) loss.backward()
def spatial_cfg_step(z_e_t, z_m_t, T_p, s_e, s_m, s_text): # 4 次前向:{dual, indep} × {cond, uncond} z_null_e = torch.zeros_like(z_e_t) z_null_m = torch.zeros_like(z_m_t) # A. 耦合预测 (M2V+V2M ON) — 有条件 eps_e_dual_c, eps_m_dual_c = model(z_e_t, z_m_t, T_p, cross=True) # B. 解耦基线 (video 分支 M2V OFF, 用 null mask) eps_e_indep_c, _ = model(z_e_t, z_null_m, T_p, cross=False) # C. 解耦基线 (mask 分支 V2M OFF, 用 null video) _, eps_m_indep_c = model(z_null_e, z_m_t, T_p, cross=False) # 空间增强 (公式 3) eps_e_c = eps_e_indep_c + s_e * (eps_e_dual_c - eps_e_indep_c) eps_m_c = eps_m_indep_c + s_m * (eps_m_dual_c - eps_m_indep_c) # 同上但 T_p = null → 无条件版本 eps_*_uc eps_e_uc, eps_m_uc = spatial_cfg_uncond(z_e_t, z_m_t, s_e, s_m) # 文本 CFG 正交叠加 (公式 4) eps_e_final = eps_e_uc + s_text * (eps_e_c - eps_e_uc) eps_m_final = eps_m_uc + s_text * (eps_m_c - eps_m_uc) return eps_e_final, eps_m_final
不是规模。OpenVE-3M 有 300 万数据,比 Goku 多 50%。真正的差别是任务空间:
因此,即便对方数据更多,若下游任务是复杂结构编辑,模型仍无从学起。这是为什么 Table 3 中同一架构下,Goku(未过滤)就已胜出。
标准 CLIP text encoder(77 tokens 上限、纯文本对齐)在处理 "remove the red hat on the girl with twin pigtails" 这类指代密集指令时会丢失关系信息。MLLM 的优势:
Table 4 消融显示替换为 MLLM 后 IF 从 0.541 → 0.573(+3.2 pt),提升不大,但为后续组件奠基——如果没有对复杂指令的正确理解,双分支和 SpatialCFG 也无从发挥。
可以,但推理期你没有 GT 掩码。用户只给指令与源视频,模型必须自己确定"改哪里"。三种可选方案:
Table 4 显示 dual-branch 使 SR 从 0.756 → 0.789(+3.3 pt),PR 从 0.664 → 0.695,就是空间约束的直接收益。
如果对掩码 latent 直接双线性上采样到高分辨率再做 attention,会引入插值噪声并把 token 数放大 n² 倍——计算成本×n²=×16。RoPE Scaling 是让计算便宜、位置对齐正确的取巧方案:
本质是把"低分辨率 token"当作"高分辨率栅格上的采样点"来做位置计算,位置正确、算力不增。
它们放大的是不同来源的信号,是正交的:
只用 Text CFG,模型仍会执行编辑,但边界飘、区域外泄;只用 SpatialCFG 而无 Text CFG,模型对指令的敏感度会下降。因此论文用 4 次前向做联合放大:{cond, uncond} × {dual, indep}。这是推理开销的主要来源。
如果显存/延迟受限,可以先只做 Text CFG,最后 20% 步启用 SpatialCFG——工程折中。
因为 合成成本 ≪ 训练成本 ≪ 反复 debug 成本。留下的每一个样本都要在训练中被反复 forward/backward 数十次,坏样本产生的错误梯度会污染整个模型。
Table 3 直接给出证据:同为 50k 样本,过滤前后 IF 差 +58%,EQ 差 +58%。也就是说,过滤后的 12k 有效样本比未过滤的 50k 还好得多——在数据合成阶段"多丢一点"是正确策略。
会,但作者用两招缓解:
因此该方法接受"高失败率"作为代价,用过滤把误差控在 12% 以下。
论文正文只在消融实验中给出训练量:
Table 3 的"100k 未饱和"暗示最终模型可能用到了几十万到全部 200 万样本。这是复现的最大空白点,需要作者在补充材料/开源 repo 中补齐。
不是。作者的解释与之相符:
见下一节"局限与改进方向"。摘要三个最有前景的方向:
基于对论文的独立审视,本节列出论文未主动强调、但对复现或后续研究有影响的问题。红色卡片指出局限,绿色卡片给出可行的改进方向。
整个 Goku 数据集起源于同一个源库 Koala-36M。分布偏好、拍摄美学、内容主题都会被继承。跨域泛化(如医疗、卫星、动漫)尚未验证。
更长的电影级编辑(1-5 分钟)需要处理镜头切换、故事一致性、更长时序连贯——这在 Goku 数据分布中缺席。
过滤评估、任务规划、语义验证均依赖 Google 闭源模型。对可复现性与商用授权有硬约束。作者虽提供 Qwen3VL-30B 替代,但性能对齐未量化。
视频作为多模态媒介,音频编辑(音效替换、语音变声、音画同步)是重要缺口。真实创作场景多需音-视协同。
Goku 依赖 VACE、Wan2.2、Flux 等作为"教师"。任何一个专家模型有偏差(如 Flux 在特定光照下崩),都会被继承进 Goku——过滤只能剔除严重错误,微妙偏差会隐性累积。
双分支 Wan2.2-5B 使显存/算力翻倍,SpatialCFG 使推理再翻倍。相较 LucyEdit 单分支路线成本高得多,商业化时是硬伤。
论文用 Qwen3VL-8B 只做定长文本编码,未给出对超长复合指令(如 5 步以上)的行为曲线。
SpatialCFG 的收益依赖三个 hyperparameter 的组合,但正文未提供最优取值也未提供搜索区间。复现者需要自己 sweep。
Fig. 6 都是成功案例,缺少"Goku-Edit 也会崩"的情形展示。这在数据集/模型论文中并不罕见但不利于社区理解方法边界。
PR/SR/IF/EQ 都由 Gemini2.5-Pro 判断。这带来自我循环风险:训练用 Gemini 过滤的数据、评测又让 Gemini 打分,如果 Gemini 有系统偏差,Goku 家族在此偏差上会有"结构性优势",未必反映真实感官。
Table 5 未报告标注者一致性、置信区间或统计显著性检验。5 分 Likert 上的 4.58 vs 4.05 差距是否显著,不能只看点估计。
训练集与测试集共享上游视频源,对分布外泛化的评估不足。这不是数据泄漏(clip 级别不重叠),但美学/场景先验高度重合。
缺少在其他社区常用 IVE bench(如 TGVE-Bench)上的横向数据,不便与更早工作的历史结果对齐。
沿用子问题分解思想:将 1 分钟视频切成 10 秒段,段间用记忆机制(如 KV-cache 或 latent memory)保持一致性;每段用 Goku-Edit,段间训练一个"衔接分支"处理边界闪烁。
接入音频专家(AudioLDM、MusicGen)作为管线的第 6 类专家,同时构造"改视觉→自动同步改音频"的 Multi-Modal-Edit 类别。作者已有 SpongeBob(音-视同步生成)工作,可无缝集成。
用 Gemini + Qwen3VL + GPT-4o 三个 MLLM 集成打分,取中位数。同时在 Goku-Bench 上做MLLM ↔ 人的 Pearson 相关分析,公开 residual,让社区判断可信度。
把 Goku-Edit 的双分支 + SpatialCFG 推理结果作为"教师",蒸馏一个只有单分支的 student——保留 90% 性能,推理成本降回 LucyEdit 级别。
用户逐步下达"再红一点"、"帽子往左偏"这类增量指令,模型在保持前一轮编辑的基础上做局部精修。需构造"编辑轨迹"数据(V0 → V1 → V2)和轨迹级损失。
Camera / Subject Movement 目前仍在 2D 图像层面操作。若接入 3D 场景重建(Gaussian Splatting、NeRF),可实现严格几何一致的相机运动与主体重定位——目前的物理规则保真度(PR)还有很大提升空间。
Goku-Edit 训练完成后,本身即是一个"编辑专家",可以反过来作为数据管线的第 7 号专家生成新的 Multi-Task 数据,形成"模型 → 数据 → 更好模型"的飞轮。作者已经暗示"100k 未饱和",飞轮有实际收益。
用户不总是能精确描述想要什么。可以引入"意图澄清"模块:用户给一句模糊指令,MLLM 反问或建议 3 个候选编辑,人选后再执行。这偏向 HCI 层面但对产品化极为关键。