Skip to content

Latest commit

 

History

History
20 lines (15 loc) · 2.61 KB

2311.16926.md

File metadata and controls

20 lines (15 loc) · 2.61 KB

背景

  • 背景
    文章介绍了视觉大型语言模型(Visual LLM)的研究进展,这些模型旨在为多模态数据处理建立一个统一的框架,克服LLMs仅适用于语言数据的限制。然而,目前没有任何模型是为计算机视觉中的小样本任务而设计的。因此,本文提出了第一个视觉LLM框架,用于处理小样本分割任务,并从指令调整和上下文学习中汲取灵感,精心设计了适合小样本分割的指令形式和示例。

  • 已有的工作 现存的工作没有设计用于处理计算机视觉中的小样本任务,特别是在精确理解视觉信息方面,仅依靠文本内容训练的LLMs在小样本图像分割任务上存在挑战,因为可用的训练图像非常少。现有方法难以让LLMs直接生成像素级图像遮罩,因为LLMs输出token的数量有限。

核心贡献

  • 提出了一个基于LLM的小样本分割框架
    • 挑战1:指令输入至关重要 为解决LLMs难以直接生成像素级图像遮罩的问题,文章设计了两种指令:分割任务指令和细粒度上下文指令,分别为LLM提供详细的任务定义和多模态的细粒度指导。这两种指令整合后构成了完整的指导信息,通过这种设计,LLMs可以更加精确地理解视觉信息并有效执行小样本分割任务。

    • 挑战2:视觉任务的具体化 文章通过模仿人脑在分类未知新类别时的“从一般到详细,从抽象到具体”的机制,使LLM理解并执行特定类别内图像的分割。LLM先根据获取的知识将一个泛泛的名词拆分成具体的属性,从而教会LLM如何在图像中进行特定类别的分割。

实现与部署

该框架(LLaFS)的实现分为三个关键组成部分:(1) 特征提取器,提取图像特征并生成视觉token;(2) 结合视觉token、目标类别和任务需求的定制指令;以及(3) 基于输入指令预测分割遮罩的LLM,后面跟一个优化结果的细化网络。作者使用Blip2的方法和一个图像编码器进行特征提取,使用ResNet50作为图像编码器,并在训练期间保持固定。使用CodeLlama(具有70亿参数并通过指令进行微调)作为LLM,并装备LoRA用于微调。这些组件共同工作,在LLaFS框架内实现高质量的小样本分割。

总结

本文提出了一个基于大型语言模型(LLM)的小样本图像分割框架,并解决了让LLMs理解和执行视觉任务的核心挑战。通过定制指导和细粒度上下文指导相结合的方法,实现了高质量的小样本分割。