- 研究背景: 随着大型多模态模型(LMMs)的发展,这些模型依赖于预训练的视觉语言模型(VLMs)和大型语言模型(LLMs),在视觉和语言的联合空间中展现出惊人的多模态任务处理能力。然而,这些模型也面临着排版攻击(Typographic Attack)的安全漏洞。排版攻击通过在图像中故意引入排版错误来误导模型,尤其是CLIP模型的零样本分类能力。尽管CLIP是LMMs的关键组成部分,但LMMs对排版攻击的易感性尚未得到充分研究。
- 过去方案和缺点: 以往的研究主要集中在提升模型的泛化能力和鲁棒性,但对排版攻击这种特定形式的攻击研究较少。排版攻击能够通过在图像中添加误导性的文本,导致模型做出错误的分类决策。这种攻击方式对于模型的鲁棒性提出了新的挑战,因为它们只需要对视觉输入进行微小的修改。
- 本文方案和步骤: 本文首先全面调查了排版对LMMs的干扰性,并通过设计专门的排版数据集来评估LMMs在各种多模态子任务(如对象识别、视觉属性检测、计数、算术计算和常识推理)中的易感性。研究者们还探讨了字体大小、颜色、不透明度和排版错误在图像中的空间位置等排版因素对性能的影响。研究发现,LMMs能够在一定程度上区分图像中的视觉内容和排版错误,这表明视觉编码器的嵌入包含足够的信息来区分图像中的视觉内容和排版错误。受此启发,研究者们展示了通过提供更具信息性的文本来匹配图像,可以显著提高CLIP在包含排版错误的图像上的零样本分类性能。此外,研究者们还证明了LMMs可以利用更具信息性的提示来利用嵌入中的信息来区分视觉内容和排版错误,并提出了一种提示信息增强方法,可以有效缓解排版的影响。
- 本文创新点:
- 首次全面研究排版攻击对LMMs的影响,并在多个子任务和排版因素上进行了全面覆盖。
- 引入了排版数据集,作为一个强大的平台,用于评估排版如何影响LMMs在各种多模态子任务和排版因素上的问题解决能力。
- 发现CLIP作为LMMs的视觉编码器能够从包含排版错误的图像中提取完整的语义,并证明如果提供更具信息性的提示,CLIP几乎可以避免排版攻击。
- 提出了一种新的更具信息性的提示引导方法,可以有效缓解排版对LMMs的脆弱性。
- 本文实验和性能: 实验部分,研究者们部署了最先进的LMMs,包括LLaVA和InstructBlip,并在排版数据集上进行了测试。实验结果揭示了LMMs在面对排版数据集时性能显著下降。此外,通过改变排版因素(如字体大小、不透明度、颜色属性和排版错误在图像中的空间位置),研究者们观察到排版的可见性与干扰效果之间存在显著的正相关性。即使可见性较低的排版错误也会对LMMs的问题解决能力产生非微不足道的影响。通过Grad-CAM可视化和PCA分析,研究者们进一步阐明了排版图像如何通过内部LMMs的信息注意力机制产生干扰。
阅读总结报告: 本文针对大型多模态模型在排版攻击下的易感性进行了深入研究。通过引入排版数据集,研究者们不仅评估了LMMs在多种任务上的表现,还探讨了不同排版因素对模型性能的影响。实验结果表明,即使在排版错误不明显的情况下,LMMs的性能也会受到显著影响。研究者们提出的通过增强提示信息来提高模型鲁棒性的方法,为缓解排版攻击提供了新的视角。这项工作不仅为理解LMMs的脆弱性提供了新的见解,也为未来提高模型鲁棒性的研究提供了有价值的方向。
注:
在本文中,"perception and cognition tasks" 指的是两类不同的任务,它们分别涉及模型对视觉信息的处理和理解能力。
- Perception Tasks(感知任务): 这类任务主要关注模型对图像内容的直接理解和解释。在这些任务中,模型需要识别和解释图像中的视觉元素,例如对象识别(识别图像中的主要对象)、视觉属性检测(识别图像中对象的颜色、形状等属性)、计数(计算图像中对象的数量)等。这些任务要求模型能够准确地从图像中提取和理解视觉信息。
- Cognition Tasks(认知任务): 认知任务则要求模型在理解图像内容的基础上进行更高层次的思考和推理。这类任务通常涉及对图像内容的逻辑分析和知识应用,例如算术计算(理解并解决图像中呈现的数学问题)、常识推理(利用世界知识回答与图像相关的问题)。这些任务不仅需要模型识别图像中的视觉信息,还需要模型运用其内在的知识库来做出合理的判断和推理。
在本文的研究中,通过评估LMMs在这些感知和认知任务上的表现,研究者们能够全面了解排版攻击对模型性能的影响,以及模型在处理视觉信息时的易感性。这些任务的设置有助于揭示LMMs在面对复杂视觉挑战时的能力和局限性。