读前先问

  1. 大方向的任务是什么?Task

多模态——视觉-语言模型(VLM)——视觉问答(VQA)

  1. 这个方向有什么问题?是什么类型的问题?Type

VLM一般由两部分组成:LLM+Vision Encoder,Vision Encoder这一块基本上都是CLIP-ViT,它有两个问题:① 细节感知能力不够强,比如不能直接用来做OCR;② 虽然足够通用,但是在专用领域缺少训练。

  1. 为什么会有这个问题?Why

CLIP一开始训练的时候就是在COCO这种通用数据集上训练的。

  1. 作者是怎么解决这个问题的?How

又引入了一个Vision Encoder,论文里叫词表网络,并且这个Vision Encoder是通过自回归任务训练的。

  1. 怎么验证解决方案是否有效?

一方面要验证在细节方面的感知能力,另外一方面也要保证不会损害模型原有的能力。

  1. 实验结果怎么样?What(重点关注有没有解决问题,而不是效果有多好)

论文精读

摘要

大规模视觉-语言模型(Large Vision-Language Models,LVLMs)基本上使用得都是同一个视觉词表——CLIP,它也适用于大部分的视觉任务。但是,对于一些特殊的任务往往需要更密集和更细致的感知,比如文档OCR和图标理解,特别是对于非英语场景,CLIP的词表在分词时往往比较低效,并且还可能会遇到无法分词的问题。基于此问题,作者提出了Vary(Vision vocabulary),一种有效扩展LVLMs视觉词表的方法。该方法主要包括两步,首先是生成新的视觉词表,作者通过解码器 Transformer 设计了一个词表网络,通过自回归的方式生成词表。然后将新的词表合并到原本的视觉词表(CLIP)中,以此来快速增强LVLMs的特征表示能力。

引言

类似于GPT-4的LVLMs,比如BLIP-2、MiniGPT4、LLaVA和Qwen-VL等,在各个方面都有很出色的性能,它们一般都具有两部分:LLMs和视觉编码器。为了将图像编码与文本编码对齐,BLIP-2和MiniGPT-4引入了高质量的图像-文本对进行有监督微调,LLaVA则是利用线性层将视觉编码映射到文本编码,Qwen-VL则是利用了交叉注意力层。