MIT和DeepMind的研究揭示了视觉语言模型在处理否定时为何会遇到困难

在多模态任务中,视觉语言模型(VLMs)扮演着重要角色,比如图像检索、图像描述和医学诊断等。这些模型旨在将视觉信息与语言信息对接,以提高信息处理的效率。然而,当前的VLMs在理解否定方面仍面临不少挑战。否定在许多应用中至关重要,比如区分“没有窗户的房间”和“有窗户的房间”。尽管VLMs已经取得了显著进展,但在处理否定陈述时仍显得力不从心。