Press ESC to close

谷歌AI推出了一项基础框架,旨在提高扩散模型推断时间的效率

最近,来自纽约大学、麻省理工学院和谷歌的研究团队提出了一种创新框架,旨在解决扩散模型在延长推理时间方面的瓶颈问题。这项开创性研究突破了传统上简单增加去噪步骤的方法,为生成模型性能的提升开辟了新的途径。

该框架主要从两个维度运作:首先,利用验证器提供反馈;其次,实施算法以发现更好的噪声候选者。研究团队在256×256分辨率的预训练SiT-XL模型基础上进行了创新,引入了专门用于搜索操作的额外计算资源,同时保持了250个固定的去噪步骤。

在验证系统方面,研究采用了两种Oracle验证器:Inception Score (IS) 和 Fréchet Inception Distance (FID)。IS 根据预训练的InceptionV3模型选择最高的分类概率,而FID则旨在最小化预先计算的ImageNet Inception特征之间的统计差异。

QQ20250120-142056.png

实验结果显示,该框架在多个基准测试中表现优异。在DrawBench测试中,LLM评分者确认搜索验证方法能够持续提高样本质量。值得注意的是,ImageReward和验证器集成在各种指标上取得了显著进步,这得益于它们精确的评估能力和与人类偏好的高度一致。

这项研究不仅验证了基于搜索的计算扩展方法的有效性,还揭示了不同验证器固有的偏差,并为未来开发更专业的视觉生成任务验证系统指明了方向。这一发现对于提升AI生成模型的整体性能具有重要意义。

总结:本文介绍了纽约大学、麻省理工学院和谷歌的研究团队提出的一种创新框架,旨在解决扩散模型在延长推理时间方面的瓶颈问题。该框架通过引入专门用于搜索操作的额外计算资源,并采用Inception Score (IS) 和 Fréchet Inception Distance (FID) 作为验证器,在多个基准测试中取得了显著效果。这一研究不仅证明了基于搜索的计算扩展方法的有效性,还揭示了不同验证器固有的偏差,并为未来开发更专业的视觉生成任务验证系统提供了指导。
Douglas Lemke

Hi, I’m Douglas Lemke, Your Blogging Journey Guide 🖋️. Writing, one blog post at a time, to inspire, inform, and ignite your curiosity. Join me as we explore the world through words and embark on a limitless adventure of knowledge and creativity. Let’s bring your thoughts to life on these digital pages. 🌟 #BloggingAdventures

Leave a comment

Your email address will not be published. Required fields are marked *

@Katen on Instagram