arXiv:2606.30599
Goku: A Million-Scale Universal Dataset and Benchmark for Instruction-Based Video Editing
面向指令式视频编辑的百万级通用数据集与基准
Sen Liang, Cong Wang, Zhentao Yu, Fengbin Guan, Zhengguang Zhou, ..., Zhibo Chen · USTC & Tencent
构建 100 万规模的指令式视频编辑数据集 Goku,配套 Goku-Edit 双分支模型(RoPE 对齐空间交叉注意力 + SpatialCFG)与 Goku-Bench 基准(7 个编辑专属指标)。
arXiv:2606.27608
Qwen-Image-2.0-RL Technical Report
面向图像生成与编辑的 RLHF + 在策略蒸馏后训练管线
Yixian Xu, Kaiyuan Gao, Yuxiang Chen, ..., Chenfei Wu · Qwen Team, Alibaba
用 pointwise 复合 VLM 奖励 + hybrid CFG 的 GRPO 训练两个任务专用教师(T2I / Edit),再通过在策略蒸馏做 W₂ 上界最小化的轨迹级速度场匹配融合成单一部署模型。