你是否曾被 AI 生成视频的惊艳开场所吸引,却在几秒后失望于⾊彩漂移、画面模糊、节奏断裂? 当前 AI 长视频⽣成普遍⾯临 “高开低走 ” 的困境:前几秒惊艳夺⽬ ,之后却质量骤降、细节崩坏;更别提帧间串行生成导致的低效问题 —— 动辄数小时的等待,实时预览几乎难以企及。 先谋全局:在宏观层面统—规划整段视频的叙事脉络与视觉—致性,确保剧情连贯、风格统—;再精细节:将长视频拆解为多个短片段,并通过并行化⽣成管线⾼效填充每—帧细节,大幅提升速度与稳定性。 实现分钟级⾼质量长视频稳定生成,告别 “虎头蛇尾”;⽣成效率显著提升,结合蒸馏加速技术,预览帧率最高可达约 32 FPS ,接近实时交互体验;在色彩—致性、 内容连贯性上全⾯超越传统串行生成方案。 论文标题:Macro-from-Micro Planning for High-Quality and Parallelized Autoregressive Long Video Generation作者:Xunzhi Xiang, Yabo Chen, Guiyu Zhang, Zhongyu Wang, Zhe Gao, Quanming Xiang, Gonghu Shang, Junqi Liu, Haibin Huang, Yang Gao, Chi Zhang, Qi Fan, Xuelong Li机构 :南京大学;中国电信人工智能研究院;上海交通大学;香港中文大学(深圳);中国科学院大学论⽂地址:https://arxiv.org/abs/2508.03334项⽬主页:https://nju-xunzhixiang.github.io/Anchor-Forcing-Page/ 由于每—帧都依赖前—帧生成,微小误差会随时间不断累积,导致画面逐渐 “跑偏”:人物变形、场景错乱、色彩失真等问题频发,严重影响视觉质量。 这—理念借鉴了电影工业中 “导演制定分镜脚本 + 多摄制组并行拍摄” 的协作模式,将长视频生成从 “接龙式绘画” 转变为 “系统性制片 ”。 长时⼀致性:通过宏观规划抑制跨片段漂移;高效并行性:各片段可独立填充细节,支持多 GPU 并行;灵活调度性:采用流水线机制,进—步提升资源利用率。 最终,系统可在保证高质量的前提下,实现分钟级、节奏可控的稳定⽣成,结合蒸馏加速方案,预览速度可达 ≥32 FPS ,接近实时交互体验。 更稳:无明显色彩漂移、 闪烁或结构崩坏,长时间生成仍保持高保真;更长: 支持 20 秒、30 秒乃至 1 分钟的连贯叙事,片段衔接自然;更快:得益于并行填充与自适应调度,长视频生成整体吞吐量大幅提升。 这些锚点在同—去噪过程中联合生成,彼此之间语义协调、运动连贯;且均以首帧为条件单步预测,避免了多步累积误差。它们共同构成了该片段的 “视觉骨架” ,为后续填充提供强约束。 当 AI 不再局限于逐帧生成,而是具备了从整体出发的规划能力 —— 理解情节的推进、协调画面的连贯性、控制运动的节奏,长视频生成便迈出了从 “ 片段拼接” 走向 “统—表达” 的关键—步。我们希望,MMPL 能为视频创作提供—种更稳定、更高效的技术路径。借助其近实时的生成能力,创作者可以在快速反馈中不断调整与完善自己的构想,让创意更自由地流动。


