Menu

2025-03-12-Bunny 轻量级多模态语言模型家

post on 12 Mar 2025 about 1752words require 6min
CC BY 4.0 (除特别声明或转载文章外)
如果这篇博客帮助到你,可以请我喝一杯咖啡~

论文链接 https://arxiv.org/abs/2402.11530

全文总结

一种名为 Bunny 的轻量级多模态语言模型家族,旨在通过优化训练数据来提高模型的性能,从而在计算资源有限的情况下实现高效的多模态学习。

研究背景

  1. 背景介绍: 多模态大型语言模型(MLLMs)在视觉理解和推理任务中表现出色,但其部署受到训练和推理阶段的高计算成本和内存消耗的限制。为了克服这一问题,研究者们尝试使用较小的预训练视觉和语言模型,但这通常会导致性能下降。
  2. 研究内容: 通过优化训练数据来补偿模型规模的减小,从而在保持高性能的同时实现模型的小型化。
  3. 文献综述: 多种轻量级 MLLM 的尝试,如 LLaVA-Phi、Imp 和 Vary-toy 等,这些工作通过使用小型语言模型和视觉编码器来实现模型的小型化。此外,还有研究探索了模型架构和训练策略的优化。

研究方法

这篇论文提出了 Bunny,一种轻量级的多模态模型家族,用于解决多模态学习中的计算成本问题。具体来说,

1741790887815EqNRbHjCOoXqZixhNGjcc7yXneh.png

  1. 训练数据构建: 为了提高训练数据的有效性,作者从 LAION-2B 数据集中构建了高质量的预训练数据集 Bunny-pretrain-LAION-2M,并收集了视觉指令调整数据集 Bunny-695K。通过数据集精简技术,从广泛的源中选择更信息量的数据。
  2. 训练策略: 采用两阶段训练策略:第一阶段进行预训练,对齐视觉嵌入和文本嵌入;第二阶段进行微调,应用视觉指令调整以充分利用 MLLM 的能力。在微调阶段,使用 LoRA 来训练 LLM 骨干,而视觉编码器和跨模态投影器则完全调整。

LoRA:基于大模型的内在低秩特性,增加旁路矩阵来模拟全参数微调,LoRA 通过简单有效的方案来达成轻量微调的目的。它的应用自不必提,可以将现在的各种大模型通过轻量微调变成各个不同领域的专业模型。 1741964606068RLo3b1D3moX6OCxShJrc5FiAnee.png

  1. 使用预训练的 LLM 权重初始化 A 和 B 矩阵。
  2. 将 LLM 应用于特定任务的训练数据集。
  3. 在训练过程中,只有 A 矩阵会针对训练数据集(输入资料(X))进行微调。
  4. 训练完成后,获得了针对特定任务适应的 LLM,也就是 H(输出)。
  • 举个例子,如果把预训练的大型语言模型比作一座已经建好的复杂大厦,LoRA 就像是给大厦的某些房间(对应模型的特定层)添加一些简易的可拆卸隔断(低秩矩阵模块)来改变房间布局(适应新任务),而不是对整座大厦的结构和所有房间进行大规模改造 ,这样既节省了时间和材料(计算资源和时间),又能达到灵活调整的目的 。

实验设计

  1. 数据集: 在多个基准测试上评估 Bunny 的性能,包括 MME 感知、MME 认知、MMBench、SEED-Bench-1、MMMU、VQA-v2、GQA、ScienceQAIMG 和 POPE 等。
  2. 对比模型: 将 Bunny 与现有的最先进的多模态大型语言模型进行比较,包括 GPT-4V、BLIP-2、InstructBLIP、Shikra、SVIT、LVIS-INSTRUCT4V、ShareGPT4V、VILA1.5、Mini-Gemini-HD、LLaVA、MiniGPT-v2、mPLUG-Owl2、SPHINX-Intern2、YiVL、DeepSeek-VL、MM1、Idefics2、LLaVA-NeXT、MobileVLM、TinyLLaVA、Mipha、MiniCPM、Imp 等。
  3. 实验设置: 在微调阶段使用 LoRA 进行训练,并对数据策略、训练周期、视觉编码器的冻结与调整等进行消融研究。

结果与分析

  1. 性能比较: Bunny-4B 和 Bunny-8B 在大多数基准测试中优于同尺寸的其他 MLLMs,显示出卓越的多模态理解和推理能力。特别是 Bunny-8B 在 MMEP 上取得了 1644.1 的高分,远超第二名 LLaVA-NeXT-Llama-3-8B(1603.7)。
  2. 消融研究: LoRA 在微调阶段的表现优于完全调整 LLM,表明较小的模型更容易发生灾难性遗忘,而 LoRA 有助于缓解这一问题。增加数据多样性和调整视觉编码器也能提高性能。

结论

这篇论文提出了 Bunny,一种轻量级但强大的多模态模型家族。通过优化训练数据来补偿模型规模的减小,Bunny 在多个基准测试中表现出色,甚至超越了大型 MLLMs。这项工作为进一步研究和开发提供了一个干净、灵活的开源工具。

这篇论文展示了通过数据优化来实现小型化 MLLM 的有效性,具有重要的理论和实际意义。

1741790898815C6ElbuABdopLlnx0596c9FYznG0.png

Loading comments...