最近,来自纽约大学、麻省理工学院和谷歌的研究团队提出了一种创新框架,旨在解决扩散模型在延长推理时间方面的瓶颈问题。这项开创性研究突破了传统上简单增加去噪步骤的方法,为生成模型性能的提升开辟了新的途径。
该框架主要从两个维度运作:首先,利用验证器提供反馈;其次,实施算法以发现更好的噪声候选者。研究团队在256×256分辨率的预训练SiT-XL模型基础上进行了创新,引入了专门用于搜索操作的额外计算资源,同时保持了250个固定的去噪步骤。
在验证系统方面,研究采用了两种Oracle验证器:Inception Score (IS) 和 Fréchet Inception Distance (FID)。IS 根据预训练的InceptionV3模型选择最高的分类概率,而FID则旨在最小化预先计算的ImageNet Inception特征之间的统计差异。
实验结果显示,该框架在多个基准测试中表现优异。在DrawBench测试中,LLM评分者确认搜索验证方法能够持续提高样本质量。值得注意的是,ImageReward和验证器集成在各种指标上取得了显著进步,这得益于它们精确的评估能力和与人类偏好的高度一致。
这项研究不仅验证了基于搜索的计算扩展方法的有效性,还揭示了不同验证器固有的偏差,并为未来开发更专业的视觉生成任务验证系统指明了方向。这一发现对于提升AI生成模型的整体性能具有重要意义。
总结:本文介绍了纽约大学、麻省理工学院和谷歌的研究团队提出的一种创新框架,旨在解决扩散模型在延长推理时间方面的瓶颈问题。该框架通过引入专门用于搜索操作的额外计算资源,并采用Inception Score (IS) 和 Fréchet Inception Distance (FID) 作为验证器,在多个基准测试中取得了显著效果。这一研究不仅证明了基于搜索的计算扩展方法的有效性,还揭示了不同验证器固有的偏差,并为未来开发更专业的视觉生成任务验证系统提供了指导。