论文阅读：A Survey on Hallucination in Large Vision-Language Models

摘要
Introduction
Hallucination in the Era of LVLM
1. Large Vision-Language Models
  1. 关于幻觉的一些挑战
Evaluation Methods and Benchmarks
幻觉的原因
Mitigation of LVLM Hallucination

摘要

LVLM 的幻觉更具体来说是 misalignment between factual visual content and corresponding textual generation, 即真实的视觉内容和相应的生成的文本不一致. 这篇文章概述了评估幻觉的方法和 benchmark, 从训练数据和模型本身的角度研究了产生幻觉的根本原因, 还有一些其他的问题.

Introduction

NLU: 自然语言理解

NLG: 自然语言生成

LVLM 是用 LLM 的 NLU 和 NLG 功能来完成视觉语言任务, 主要方式是将视觉特征作为 LLM 的补充输入并将其与文本特征对齐 (MiniGPT4, LLaVA).

从不同的语义维度来看, 幻觉可以分为三类:

对象幻觉: 生成不存在的对象
属性幻觉: 不正确的对象属性
关系幻觉: 不准确的对象关系

目前评估 LVLM 幻觉的方法主要基于模型的认知表现, 包括:

非幻觉生成: 涉及到对模型的回答的幻觉部分的详细分析以及幻觉部分所占的比例.
幻觉 discrimination: 仅仅考虑模型的回答是否出现幻觉

分析表明 LLVM 的幻觉由:

LLM 的生成特性
biased training data
vision encoder 无法准确的定位图象
不同模态之间未对齐
不充分的 context attention

等导致.

目前的缓解方法:

优化训练集
refine LVLM 的各个模块
输出的后处理

Hallucination in the Era of LVLM

Large Vision-Language Models

LVLM 的结构包括:

vision encoder, 通常是 CLIP encoder 的 adaptation, 用于将输入的图像转换为 visual token
模态连接模块: 用来让 visual token 向 LLM 的 word embedding space 对齐, 保证 LLM 可以处理视觉信息, 比如
- cross attention
- adapters
- Q-Formers
- MLP
LLM: 核心模块, 接受对齐的视觉信息和文本信息, 综合这些信息产生回复

LVLM 的训练包括两个阶段:

预训练: LVLM 从对齐的图片-文本对获取视觉语言知识
指令调优 (instruction tuning): 这一阶段 LVLM 利用不同的任务数据集以学习遵循人类指令

关于幻觉的一些挑战

幻觉检测困难: 不仅是自然语言理解, 还要进行细粒度的视觉注释, 这些注释要与生成的文本精确地对齐
Intertwined Causes: 除了数据相关的问题 (比如错误的信息, 偏差, 知识边界的限制), 图像数据的质量会加重幻觉(通过加剧 LVLM 的语言先验的错误和统计偏差).

不是很清楚 language prior 是个什么东西?
Compound Mitigation Method: 除了应用 LLM 缓解幻觉的方法如增强数据质量, 优化 encoding, 人类偏好对齐, 针对 LVLM 本身的方法包括 refine 视觉表示(比如提高分辨率, 但带来的是更高的计算代价) 与 改善多模态对齐. 改善 vision-language token 的对齐会显著减少幻觉的产生.

resolution: 分辨率.

Evaluation Methods and Benchmarks

目前主要的评估方法有两种:

评估模型的非幻觉内容生成能力
评估模型的幻觉辨别能力

benchmark 根据评估任务分为 discriminative benchmark (DIS) 和 generative benchmark (GEN).

Evaluation on Non-Hallucinatory Generation

就是衡量模型输出中幻觉部分的比例.

Handcrafted Pipeline Methods: 手工制作, 具有很强的可解释性. 有 CHAIR (image caption 任务, 量化ground truth 与生成文本之间的差异来评估对象幻觉), CCEval, 还有 FAITHSCORE.
以模型为基础的端到端方法: 可以大致分为两类:
- LLM-based evaluation: 用一个高级的 LLM 评估 LVLM 基于幻觉的内容生成.
  
  这个 rate LVLM generated content based on hallucination 就很奇怪.
  
  LLM 接受集成的视觉信息, 用户指令以及模型回复作为输入, 用 prompt 的方法进行评估和评分.
- 幻觉数据驱动的模型评估: 做一个有标签的幻觉数据集用来给一个模型做 fine tuning, 以检测幻觉. 比如
  - M-HalDetect 数据集和 InstructBLIP 模型.
  - ChatGPT 构建的数据集和以 LoRA 为框架对 LLaMA 微调.

Evaluation on Hallucination Discrimination

旨在评估 LVLM 的幻觉辨别能力. 通常采用 Q&A 模式, 向 LVLM 查询一系列与图像内容相符或者不服的描述, 并评估模型的反应. 有 POPE 和 NOPE.

Evaluation Benchmarks

DIS benchmarks: POPE, NOPE, CIEM. 它们只关注对象幻觉, 采用准确性(询问图像中是否存在某对象, 将模型的回答与 ground truth 对比)作为评价指标.
GEN benchmarks: DIS 主要评估对象幻觉, 但是 GEN 可以囊括另外两种幻觉. AMBER 综合了 DIS 和 GEN 基准. GEN 的 metric 往往要更复杂, 这是 GEN 需要量身制定指标来针对特定的幻觉 (包括属性幻觉和关系幻觉).

幻觉的原因

Data

data bias

数据分布不平衡. 比如 Q&A 任务中如果大多数答案是 yes 可能会让 LVLM 一直回答 yes.
数据同质性. MiniGPT-4只能描述图像而不管用户提出的具体的问题, 这是由于缺少 diversified instruction learning; LLaVA 由于训练的视觉信息种类有限, 就很难准确描述局部的视觉关系.

不是很理解这个词, 举的例子也不是很清楚.

Annotation Irrelevance

所以 instruction data 是什么?

由不可靠的 LLM 生成的长指令包含的对象, 属性和关系与实际图像中所描述的细粒度的内容不对应, 在这种数据上训练会催生幻觉.

Vision Encoder

LVLM 采用的 Vision Encoder 一般是 CLIP, 它通过对比学习将视觉和文本特征映射到同一空间. 但是 CLIP 本身有局限性, 包括下面两种:

Limited Visual Resolution

现有的模型处理的图像的分辨率较低.

Fine-grained Visual Semantics

对比学习主要讲视觉内容与词嵌入对齐, 集中在突出的物体上, 难以捕捉图像的细粒度内容, 包括背景描述, 对象计数和对象关系.

Modality Aligning

misalignment 可能是导致幻觉的关键因素.

Connection Module Simplicity

简单的结构如 (MLP) 表征能力可能不强, 阻碍了模态信息的传递.

Limited Token Constraints

Q-Fromer 在 BLIP 系列和 MiniGPT-4 中应用较多. 它预先随机设定并随机初始化了 token 的数量, 将这些 token 编码为与文本对齐的视觉特征. 这种限制会导致部分信息丢失.

可能要具体看一下 Q-Former 的原理.

LLM

Insufficient Context Attention

指模型在解码过程中只关注上下文的部分信息. 包括:

过度关注生成内容的当前片段而忽略了视觉信息
优先考虑语言模式以产生更流利但不准确的内容, 以及专注于部分总结生成内容的总结 token

Stochastic Sampling Decoding

随机抽样给解码过程引入了随机性, 在这是为了生成与高似然序列相关的低质量文本并有助于丰富内容. 增加随机性可能也会产生幻觉.

这不跟没说一样?

Capability Misalignment

模型在预训练阶段得到的固有能力和在指令调优阶段施加的扩展需求的不匹配. 这导致 LLM 产生超出它们已经建立的知识的限制的回答.

Mitigation of LVLM Hallucination

mitigation: 缓解

就是针对上面的各种问题一一分析可能的缓解方法.

Data

缓解 bias

用现成的 LLM 从带注释的 image-text 数据集生成对比的 Q-A 对, 然后在引入的 CIT (对比指令调优) 利用这些对.

Annotation Enrichment

构建具有丰富注释的数据集.

Vision Encoder

放大分辨率, 对分辨率比较高的图像还可以采用将图像分割后从每个小块提取局部特征再用 LLM 处理. 不管怎样, 提高分辨率必然会带来对算力的高要求.
Perceptual Enhancement: 增强 object-leve 的感知能力. VCoder 用 segmentation map 或者 depth map 作为额外输入; 或者也可以引入额外的预训练模型来获取空间位置信息和场景图细节, 用这些信息来指导 LVLM.

Connection Module

增强连接模块
Alignment Training Optimizing: make visual and text token closer, 已有的尝试的方法是增加新的学习目标或者使用基于人类反馈的强化学习 (RLHF).

LLM

优化解码器: 应对上下文注意力不足的问题. 一种方案是视觉对比解码策略, 原图像和做一些修改后的图像分别输入, 得到两个输出, 进行对比, 然后帮助修正模型对先验和偏差的强过度依赖.

没怎么看懂 OPERA 在干什么.
与人类对齐: 还是用 RLHF 比较多.

Mitigation via Post-processing

会通过后处理或者添加附加的模块来对输出进行额外的处理来减轻幻觉, 目前有的工作为 LRUE 和 Woodpecker.

Furure 和 Conclusion 就不看了.

2024-04-09 该篇文章被 Baoduo Xu 归为分类: Project and Reseach

以上