背景

背景
文章介绍了视觉大型语言模型（Visual LLM）的研究进展，这些模型旨在为多模态数据处理建立一个统一的框架，克服LLMs仅适用于语言数据的限制。然而，目前没有任何模型是为计算机视觉中的小样本任务而设计的。因此，本文提出了第一个视觉LLM框架，用于处理小样本分割任务，并从指令调整和上下文学习中汲取灵感，精心设计了适合小样本分割的指令形式和示例。
已有的工作 现存的工作没有设计用于处理计算机视觉中的小样本任务，特别是在精确理解视觉信息方面，仅依靠文本内容训练的LLMs在小样本图像分割任务上存在挑战，因为可用的训练图像非常少。现有方法难以让LLMs直接生成像素级图像遮罩，因为LLMs输出token的数量有限。

核心贡献

提出了一个基于LLM的小样本分割框架
- 挑战1：指令输入至关重要 为解决LLMs难以直接生成像素级图像遮罩的问题，文章设计了两种指令：分割任务指令和细粒度上下文指令，分别为LLM提供详细的任务定义和多模态的细粒度指导。这两种指令整合后构成了完整的指导信息，通过这种设计，LLMs可以更加精确地理解视觉信息并有效执行小样本分割任务。
- 挑战2：视觉任务的具体化 文章通过模仿人脑在分类未知新类别时的“从一般到详细，从抽象到具体”的机制，使LLM理解并执行特定类别内图像的分割。LLM先根据获取的知识将一个泛泛的名词拆分成具体的属性，从而教会LLM如何在图像中进行特定类别的分割。

实现与部署

该框架（LLaFS）的实现分为三个关键组成部分：(1) 特征提取器，提取图像特征并生成视觉token；(2) 结合视觉token、目标类别和任务需求的定制指令；以及(3) 基于输入指令预测分割遮罩的LLM，后面跟一个优化结果的细化网络。作者使用Blip2的方法和一个图像编码器进行特征提取，使用ResNet50作为图像编码器，并在训练期间保持固定。使用CodeLlama（具有70亿参数并通过指令进行微调）作为LLM，并装备LoRA用于微调。这些组件共同工作，在LLaFS框架内实现高质量的小样本分割。

总结

本文提出了一个基于大型语言模型（LLM）的小样本图像分割框架，并解决了让LLMs理解和执行视觉任务的核心挑战。通过定制指导和细粒度上下文指导相结合的方法，实现了高质量的小样本分割。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

2311.16926.md

2311.16926.md

背景

核心贡献

实现与部署

总结

Files

2311.16926.md

Latest commit

History

2311.16926.md

File metadata and controls

背景

核心贡献

实现与部署

总结