论文精读索引

Paper Reading Index · 面向复现的深度阅读报告
共 2 篇
全部 视频编辑 图像生成 图像编辑 数据集 扩散模型 RL
arXiv:2606.30599

Goku: A Million-Scale Universal Dataset and Benchmark for Instruction-Based Video Editing

面向指令式视频编辑的百万级通用数据集与基准
Sen Liang, Cong Wang, Zhentao Yu, Fengbin Guan, Zhengguang Zhou, ..., Zhibo Chen · USTC & Tencent
构建 100 万规模的指令式视频编辑数据集 Goku,配套 Goku-Edit 双分支模型(RoPE 对齐空间交叉注意力 + SpatialCFG)与 Goku-Bench 基准(7 个编辑专属指标)。
视频编辑 数据集 扩散模型
阅读 →
arXiv:2606.27608

Qwen-Image-2.0-RL Technical Report

面向图像生成与编辑的 RLHF + 在策略蒸馏后训练管线
Yixian Xu, Kaiyuan Gao, Yuxiang Chen, ..., Chenfei Wu · Qwen Team, Alibaba
用 pointwise 复合 VLM 奖励 + hybrid CFG 的 GRPO 训练两个任务专用教师(T2I / Edit),再通过在策略蒸馏做 W₂ 上界最小化的轨迹级速度场匹配融合成单一部署模型。
图像生成 图像编辑 RL
阅读 →
未找到匹配的论文