【新智元导读】Bind-Your-Avatar是一个基于扩散Transformer(MM-DiT)的框架,通过细粒度嵌入路由将语音与角色绑定,实现精准的音画同步,并支持动态背景生成。该框架还引入了首个针对多角色对话视频生成的数据集MTCC和基准测试,实验表明其在身份保真和音画同步上优于现有方法。 该模型基于扩散Transformer(MM-DiT),通过细粒度的嵌入路由机制将「谁在说」与「说什么」绑定在一起,从而实现对音频–角色对应关系的精确控制。 Bind-Your-Avatar基于一个多模态文本到视频扩散Transformer(MM-DiT)搭建,模型输入包括:文本提示、多路语音音频流、多个角色的人脸参考图像,以及(可选)一帧用于绘制背景的inpainting帧。 文本、音频和人脸身份特征通过特征编码器提取,并由Embedding路由引导的交叉注意力(Cross-Attention)将人脸和音频信息选择性地注入到视觉Token中,从而实现音画同步性的关联。 模型的训练分为三个阶段:第一阶段只生成带补全帧的静音角色运动视频(不使用音频),第二阶段加入单角色语音输入学习音频驱动的精细角色运动(通过LoRA轻量化微调),第三阶段引入多角色语音输入并联合训练Embedding路由(使用教师强制方法防止掩码退化)。 在训练时,研究人员设计了交叉熵损失监督路由输出,并结合几何先验引入时空一致性损失和层一致性损失,增强掩码的准确性和平滑性。 Intra-Denoise路由在扩散去噪过程中动态生成细粒度3D时空掩码,实现对各角色帧级独立控制。这种设计不仅提升了音频与对应角色口型的精度,还保持了角色身份的连贯性。 为了得到高质量的3D-mask,研究人员在路由的设计中提出了两个有效的方法。其中,掩码优化策略通过引入几何先验对掩码进行正则化,提高了角色与背景区域分割的准确度和时序一致性;此外,研究人员还提出了一种掩码细化流程,将初步预测的稀疏掩码进行平滑和时间一致性校正,进一步增强掩码质量。 视频清洗(筛选分辨率、时长、帧率;确保视频中恰有两个清晰角色;姿态差异度过滤等)、音频分离与同步筛选(使用AV-MossFormer和Sync-C指标确保音画一致)、语音与文本标注(应用Wav2Vec提取音频特征,QWen2-VL生成描述)以及SAM2生成角色区域掩码作为监督信号。 研究人员在MTCC测试集和全新基准集(Bind-Your-Avatar-Benchmark,含40组双角色人脸和双流音频)上与多种基线方法进行了对比,包括最近的Sonic、Hallo3和Ingredients等。这些方法原本设计用于单角色或无背景场景,对本任务进行了适配。 结果表明,Bind-Your-Avatar在人脸相似度和音画同步度指标上均显著优于各基线(同步指标尤其优异),而在FID/FVD等视觉质量指标上也保持竞争力。 消融实验进一步验证:细粒度3D掩码比边界框或静态2D掩码能更好地应对角色运动和近距离互动,提升了动态场景下的生成质量。 例如,Bind-Your-Avatar能生成两个角色同时讲述不同内容的对话视频,并保持每个角色的口型与对应语音高度同步,同时人物面部和表情逼真。 其主要贡献包括:细粒度Embedding路由机制(实现「谁在说什么」的精确绑定)、动态3D-mask路由设计(逐帧控制各角色),以及MTCC数据集和对应的多角色生成基准。 未来工作将聚焦于增强角色动作的真实感(如身体和手势动作)并优化模型实时性能,以适应更大规模和在线化的多角色视频生成需求。


