近年来,大型视觉语言模型(LVLMs)在图像理解和跨模态任务方面展现了卓越的能力。然而,“幻觉”问题日益突出。为了解决这一挑战,淘天集团未来生活实验室团队提出了一种名为Token Preference Optimization(TPO)的新方法,引入了一种自我校准的视觉锚定奖励机制。
TPO的最大创新在于其实现了自动化的令牌级奖励信号。这种方法能够自动识别偏好数据中的视觉锚定令牌,避免了繁琐的手动精细标注过程,同时在训练过程中为每个令牌分配反映其对视觉信息依赖性的奖励。这种自我校准的视觉锚定奖励信号旨在优化模型对视觉信息的依赖,有效减少了幻觉的发生。
研究表明,使用TPO的模型在多个评估基准上显著优于传统方法,特别是在更复杂的任务中,模型生成的答案越来越依赖于图像信息而非语言模型的先验知识。这一进展不仅提升了模型的理解能力,也为进一步研究提供了重要的理论基础。
此外,研究团队还对TPO的不同参数设置进行了消融实验,发现优化噪声步骤和奖励分布策略可以进一步提升模型性能。这一发现无疑为未来大型视觉模型的研究和应用指明了方向。
总结来说,淘天集团的创新成果为多模态对齐技术提供了新的见解,并促进了人工智能技术在生活和消费领域的深入应用。
这篇文章主要介绍了淘天集团未来生活实验室团队提出的Token Preference Optimization(TPO)方法及其在大型视觉语言模型中的应用。该方法通过自动化的令牌级奖励信号优化了模型对视觉信息的依赖性,有效减少了幻觉现象,并在多个评估基准上显著提升了模型性能。此外,研究还发现优化噪声步骤和奖励分布策略可以进一步提升模型性能。这些成果不仅提升了模型的理解能力,也为未来的研究和应用提供了重要指导。