MiniCPM-V: A GPT-4V Level MLLM on Your Phone

摘要

MiniCPM-V是一系列可部署在端侧设备上的高效MLLMs。最新的 MiniCPM-Llama3-V 2.5 集成了架构、预训练和对齐方面的最新 MLLM 技术，具有几个显著特点：( 1 )性能强大，在OpenCompass上优于GPT - 4V - 1106、Gemini Pro和Claude 3，综合评估超过11个流行的基准；( 2 ) OCR能力强，在任何纵横比下都能实现1.8 M像素的高分辨率图像感知；( 3 )行为可信，幻觉率低；( 4 )支持30多种语言；( 5 )在手机上高效部署。

Intro

随着时间推移, 达到 GPT-4V 级别性能的模型的大小在迅速减小, 这可以看作是 MLLMs 的 Moore's Law.

以 MiniCPM-Llama3-V 2.5 为例介绍创新点.

Model Architecture

包括 overall architecture 和自适应高分辨率视觉编码方法(adaptive high-resolution visual encoding approach).

整体内容挺少的.

overall architecture

和一般的 mllm 一样, 包括 visual encoder, compression layer, 以及 LLM. visual encoder 采用的方法就是自适应高分辨率视觉编码, 然后采用 SigLIPSoViT-400m/14 作为 visual encoder. compression layer 用来压缩 vision tokens, 结构是具有一层 cross attention 的 perceiver resampler (感知重采样器) 结构. 压缩后的 visual tokens 和 text tokens 输入到大模型中. LLM backbone 是 MiniCPM-2.4B.

Adaptive Visual Encoding

一个好的 visual encoder 需要保留原始纵横比且保留足够的视觉细节; 再考虑到效率, vision tokens 的数量也要限制. 使用 LLaVA-UHD 提出的自适应视觉编码方法.

Image Partition

为了更好地处理不同纵横比地图像, 将图像分成 slices, 每个 slice 的纵横比和分辨率需要与 ViT 的预训练设置相匹配.

给定尺寸/分辨率为的图像, ViT 预训练设置需要的图像尺寸为 , 则理想的划分的 slice 的数量为 . 一个划分可以被描述为且 , 将所有划分的集合记作 . 衡量划分的好坏需要根据划分与 ViT 预训练设置的需要的匹配程度, 设计分数选择最优划分方式 . 为了防止为素数时只有两种划分方式, 令 . 在实际中, .

Slice Encoding

上述划分方式不能完美精确地得到形状为的 slice, 还需要下述操作:

按比例调整大小
对 ViT 的位置编码插值, 以适应 slice 的比例, 即将 ViT 的 1D embedding reshape 成 2D embedding 是位置嵌入的数量, 然后对二维插值, 以与 slice 的尺寸相匹配.
将整张图片也作为一个进行上述操作 slice 来保留全局信息.

Token Compression

经过 visual encoding, 每个 slice 可以被编码为个 token. 一层 cross attention 以及数量适中的 query 组成 compression layer, 并提供二维位置信息.

对于 MiniCPM-Llama3-V 2.5, 经过压缩每个 slice 变成了 64 个 query.

Spatial Schema

为了表明每个 slice 在图像中的位置, 对每个 slice 的 token 用两个特殊的 token <slice> 和 <\slice> 包起来, 并且用 \n 来区分不同行的 slice. (其实就按照换行符来理解就行)

训练

pre-training

用大量可能低质量的从 web 上爬取的图片-文本对训练, 目的是将视觉模块向 LLM 的输入空间对其并且学习基本的多模态知识. 分为三个阶段:

Stage-1. 对压缩层 warm up. 冻结压缩层以外的参数, 用 200M 的 image caption 的数据训.
Stage-2. 提高分辨率, 整个 visual encoder 可训, 其余冻结.
Stage-3. 用自适应视觉编码策略, 也是整个 visual encoder 可训, LLM 冻结.

SFT

用人工标注或强模型标注的的高质量数据集训所有参数.

RLAIF-V

RLAIF-V 方法用来缓解幻觉问题, 从开源模型中获取高质量反馈用于 DPO.

End-side Deployment

就不读了.

实验

Benchmarks

通用. MME, MM-Bench, MMMU 等.
OCR.
幻觉. Object HalBench.

Baseline

Yi-VL-6B/34B [108], Qwen-VL-Chat [7], DeepSeek-VL7B [68], TextMonkey [65], CogVLM-Chat-17B [102], CogVLM2-Llama3-19B [102], Idefics28B [52], Bunny-Llama-3-8B [39], XTuner-Llama-3-8B-v1.1 [27], LLaVA-NeXT-Llama-3-8B [53], Cambrian-8B/34B [99], LLaVA-NeXT-Yi-34B [61], DeepSeek-VL-1.3B [68], MobileVLM V2 [25], Mini-Gemini [57] and Phi-3-Vision-128k-instruct.

好多开源模型.

MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies

中文技术博客: MiniCPM-2B-128k: 一个小于 3B 的 128k 模型 (openbmb.vercel.app)

论文: 2404.06395 (arxiv.org)

2024-08-16 该篇文章被 Baoduo Xu 归为分类: AI

以上