每日AIGC最新进展(12)：在舞蹈视频生成中将节拍与视觉相融合、Text-to-3D综述、通过内容感知形状调整进行 3D 形状增强

Diffusion Models专栏文章汇总：入门与实战

Dance Any Beat: Blending Beats with Visuals in Dance Video Generation

https://DabFusion.github.io

本文提出了一种名为DabFusion的新型舞蹈视频生成模型，该模型能够根据给定的静态图像和音乐直接生成舞蹈视频。这一方法突破性地将音乐作为条件输入，用于指导图像到视频的合成过程，从而提高了生成内容的直观性，并消除了对精确关节注释的需求。DabFusion模型不仅能够生成高质量的舞蹈视频，还适用于多种真实世界的应用场景，如辅助舞蹈编排、社交媒体互动以及为无专业舞蹈训练的用户创造个性化舞蹈内容。

DabFusion模型的训练分为两个阶段。首先，训练一个自编码器来预测参考帧和驱动帧之间的潜在光流，这一步骤无需关节注释。其次，使用基于U-Net的扩散模型，结合音乐节奏和起始图像来生成这些潜在光流。音乐信息的提取利用了CLAP模型，这是一个大规模的音频表示基础模型，能够促进高质量、音乐对齐的舞蹈视频生成。此外，为了改善舞蹈姿势和音乐节奏之间的同步性，模型整合了Librosa工具进行音频信号分析和节拍提取。

在AIST++数据集上进行的训练和评估显示，DabFusion模型在生成多样化舞蹈风格视频方面表现出色，能够从多个角度和不同的初始姿势生成不同舞者的舞蹈视频。定量评估使用了多种指标，包括Fréchet Video Distance (FVD)、结构相似性（SSIM）、峰值信噪比（PSNR）和CLIPScore（CS），以及新引入的2D运动-音乐对齐分数（2D-MM Align），用于评估运动和音乐在二维场景中的同步性。实验结果表明，DabFusion在这些指标上取得了显著的改进，证明了其在生成节奏对齐的舞蹈视频方面的有效性。

A Survey On Text-to-3D Contents Generation In The Wild

http://arxiv.org/abs/2405.09431v1

本文综述了文本到三维内容生成（Text-to-3D generation）的研究进展，这一技术在游戏、机器人模拟和虚拟现实等应用中发挥着重要作用。尽管3D内容创建对专业技能要求高且耗时，但文本到3D生成技术通过利用大型视觉语言模型，自动化地根据文本描述生成3D内容，提供了一个有前景的解决方案。文中指出，尽管取得了一定的进展，现有方法在生成质量和效率上仍有显著限制。

文章深入探讨了最新的文本到3D创建方法，提供了文本到3D创建的全面背景，包括训练中使用的数据集和评估生成3D模型质量的评估指标。研究者还深入讨论了作为3D生成过程基础的不同类型的3D表示方法，并根据算法方法论将文献中的生成管道分为前馈生成器、基于优化的生成和视图重建方法三类，对比了它们的优缺点。

文中还介绍了一些代表性的工作，如Shap-E、DreamFusion和Instant3D，并讨论了这些方法的生成结果。通过对这些方法的深入分析，文章旨在揭示各自的能力和局限性，并指出了未来研究的几个有前景的研究方向。最后，文章概述了3D生成领域的开放性挑战，并总结了整个调查，旨在激发研究人员进一步探索开放词汇文本条件3D内容创建的潜力。

3D Shape Augmentation with Content-Aware Shape Resizing

http://arxiv.org/abs/2405.09050v1

本文介绍了一种基于3D缝纫雕刻（Seam Carving）的新型3D模型增强方法，称为高效3D缝纫雕刻（Efficient 3D Seam Carving, E3SC）。该方法旨在解决深度学习算法在3D模型任务中对大型训练数据集的依赖性问题。通过仅对输入模型的部分区域进行逐步变形，同时保持整体语义不变，E3SC能够生成具有复杂结构和精确细节的多样化3D形状。

E3SC方法利用基于内容感知的2D图像调整技术，通过精确的3D缝预测和提高计算效率，实现了对3D模型的增强。该方法特别引入了“锚点”来增加多样性，并通过束搜索（beam search）和锚点选择技术来确保计算效率和输出多样性。此外，该方法还包括一个对称性检查，以评估输入3D形状的对称性，并据此选择最优的增强路径。

实验使用了ShapeNetV2数据集来评估E3SC方法。与轴缩放、分段线性变形和频谱增强技术相比，E3SC在多种类型的输入模型上生成了高质量和多样化的增强3D形状。定量评估表明，该方法在生成形状的新异性和质量上，显著优于其他后续3D生成算法。此外，通过人类偏好研究，E3SC在视觉质量和多样性方面均优于基线方法。尽管如此，该方法在处理像素风格的3D形状时可能会产生一些伪影，这是其局限性之一。