当前位置: 首页 > news >正文

多模态大语言模型arxiv论文略读(143)

在这里插入图片描述

BIFRÖST: 3D-Aware Image compositing with Language Instructions

➡️ 论文标题:BIFRÖST: 3D-Aware Image compositing with Language Instructions
➡️ 论文作者:Lingxiao Li, Kaixiong Gong, Weihong Li, Xili Dai, Tao Chen, Xiaojun Yuan, Xiangyu Yue
➡️ 研究机构: MMLab, The Chinese University of Hong Kong、The Hong Kong University of Science and Technology (Guangzhou)、Fudan University、University of Electronic Science and Technology of China
➡️ 问题背景:当前的图像生成技术,尤其是在扩散模型的推动下,已经取得了显著进展。然而,现有的图像合成方法主要集中在2D层面,无法处理复杂的3D空间关系,如遮挡。这限制了它们在需要精确3D几何关系的场景中的应用,例如电子商务、效果图像渲染、海报制作和专业编辑等。
➡️ 研究动机:为了克服现有方法在处理复杂3D空间关系上的不足,研究团队提出了Bifröst,这是一个3D感知的图像合成框架。Bifröst通过整合深度图作为额外条件,提高了空间理解能力,支持更复杂的3D交互。研究旨在通过深度感知的图像合成,提高对象身份的保留和背景的和谐性,同时减少对昂贵标注数据集的依赖。
➡️ 方法简介:Bifröst的方法分为两个阶段。第一阶段,通过定制的反事实数据集对多模态大语言模型(MLLM)进行微调,以预测2.5D对象位置(包括边界框和深度)。第二阶段,训练图像合成模型,利用深度图、ID令牌和细节图来生成高保真度的图像合成结果。这种方法不仅提高了对象身份的保留和背景的和谐性,还支持复杂的3D空间关系。
➡️ 实验设计:研究在多个公开数据集上进行了实验,包括YouTubeVOS、MOSE、VIPSeg、VitonHD、MSRA-10K、DUT、HFlickr、LVIS和SAM(子集)。实验设计了不同的条件,如不同的数据类型(视频和图像)、样本数量和变化情况,以全面评估模型在不同条件下的表现。实验结果表明,Bifröst在图像合成任务中显著优于现有方法,特别是在处理遮挡、深度模糊和图像和谐性方面表现出色。

Improving Multimodal Large Language Models Using Continual Learning

➡️ 论文标题:Improving Multimodal Large Language Models Using Continual Learning
➡️ 论文作者:Shikhar Srivastava, Md Yousuf Harun, Robik Shrestha, Christopher Kanan
➡️ 研究机构: University of Rochester、Rochester Institute of Technology
➡️ 问题背景:生成式大型语言模型(LLMs)展示了令人印象深刻的能力,通过整合预训练的视觉模型,可以进一步增强这些模型的能力,形成多模态大型语言模型(MLLMs)。然而,这种整合通常会显著降低自然语言理解和生成任务的性能,这种现象被称为灾难性遗忘(catastrophic forgetting)。
➡️ 研究动机:尽管多模态大型语言模型(MLLMs)在许多视觉-语言任务中表现出色,但其在自然语言理解和生成任务上的性能下降问题尚未得到充分研究。本研究旨在通过将MLLMs的创建视为持续学习(CL)问题,探索缓解灾难性遗忘的方法,以提高模型的多模态性能,同时保持其语言能力。
➡️ 方法简介:研究团队使用LLaVA MLLM作为研究对象,评估了五种持续学习方法,以减少灾难性遗忘。这些方法包括LoRA、Soft Targets、Rehearsal和mSGM,以及原始的LLaVA微调(Naive FT)。研究通过在多个视觉-语言数据集上进行实验,评估了这些方法在减少语言性能下降和保持多模态准确性方面的效果。
➡️ 实验设计:实验在六个自然语言数据集(Lambada、ARC-Easy、ARC-Challenge、Winogrande、WSC)和四个视觉-语言数据集(VQAv2、GQA、TextVQA OCR和Pure、RefCOCO)上进行。实验设计了两个任务:1)学习基础LLM,2)学习视觉-语言数据集的混合。在持续学习实验中,任务1是训练基础LLM,随后依次学习每个视觉-语言任务。实验结果表明,Soft Targets方法在减少语言性能下降方面表现最佳,同时保持了较高的多模态准确性。

Evaluating Cost-Accuracy Trade-offs in Multimodal Search Relevance Judgements

➡️ 论文标题:Evaluating Cost-Accuracy Trade-offs in Multimodal Search Relevance Judgements
➡️ 论文作者:Silvia Terragni, Hoang Cuong, Joachim Daiber, Pallavi Gudipati, Pablo N. Mendes
➡️ 研究机构: Objective, Inc. San Francisco, CA, USA
➡️ 问题背景:大型语言模型(LLMs)和多模态语言模型(MLLMs)在搜索相关性评估中展现出潜力,但缺乏关于这些模型在不同场景下表现的全面指导。此外,模型性能在不同上下文中差异显著,特别是在较小模型中,视觉组件的加入可能反而降低性能。
➡️ 研究动机:为了更好地理解LLMs和MLLMs在不同使用场景中的表现,研究团队评估了多个模型在多模态搜索相关性评估中的性能,探讨了成本与准确性的权衡,并分析了多模态支持的必要性。
➡️ 方法简介:研究团队通过收集三个不同领域的数据集,进行了人类标注和模型评估。评估过程中,使用了多种LLMs和MLLMs,包括OpenAI和Anthropic的模型,通过Cohen’s kappa系数来衡量模型与人类标注的一致性。
➡️ 实验设计:实验设计了多模态和单模态两种评估方式,比较了不同模型在不同数据集上的表现。此外,还进行了提示工程分析,以优化模型的提示模板,提高模型的评估准确性。实验结果表明,模型性能在不同使用场景中存在显著差异,多模态支持的效果因模型和任务而异,且成本与准确性之间存在权衡。

LLMs Can Evolve Continually on Modality for X-Modal Reasoning

➡️ 论文标题:LLMs Can Evolve Continually on Modality for X-Modal Reasoning
➡️ 论文作者:Jiazuo Yu, Haomiao Xiong, Lu Zhang, Haiwen Diao, Yunzhi Zhuge, Lanqing Hong, Dong Wang, Huchuan Lu, You He, Long Chen
➡️ 研究机构: Dalian University of Technology、Huawei Noah’s Ark Lab、Tsinghua University、The Hong Kong University of Science and Technology
➡️ 问题背景:多模态大语言模型(Multimodal Large Language Models, MLLMs)因其在多模态理解方面的卓越能力而受到广泛关注。然而,现有的方法在扩展到新模态时,依赖于大量的模态特定预训练和联合模态调优,导致显著的计算负担。这限制了MLLMs在新模态上的持续扩展能力。
➡️ 研究动机:为了克服现有方法在扩展到新模态时的计算负担,研究团队提出了一种灵活且可扩展的框架PathWeave,该框架通过模态路径切换和扩展能力,使MLLMs能够持续进化,实现X-模态推理。研究旨在通过单模态数据的增量训练策略,消除联合模态预训练或调优的必要性,从而实现MLLMs的高效扩展。
➡️ 方法简介:研究团队提出了一个新颖的Adapter-in-Adapter(AnA)框架,该框架将单模态和跨模态适配器无缝集成,以增强模态对齐和协作。AnA框架通过在预训练的视觉LLM基础上,逐步添加单模态适配器,并在训练后冻结这些适配器,以“记忆”历史模态。同时,通过在已学习的单模态适配器中插入内适配器(in-adapters),构建跨模态适配器,以促进历史知识的获取和跨模态协作。此外,还引入了一个基于MoE的门控模块,以进一步增强多模态集成。
➡️ 实验设计:研究团队建立了一个具有挑战性的基准测试MCL(Continual Learning of Modality),该基准测试包含来自五种不同模态的高质量QA数据:图像、视频、深度、音频和点云。实验设计了模态数据的增量输入,以评估模型在新模态上的学习能力和对历史模态的记忆稳定性。实验结果表明,PathWeave在模态可塑性和记忆稳定性方面表现出色,同时显著减少了参数训练负担。

Face-MLLM: A Large Face Perception Model

➡️ 论文标题:Face-MLLM: A Large Face Perception Model
➡️ 论文作者:Haomiao Sun, Mingjie He, Tianheng Lian, Hu Han, Shiguang Shan
➡️ 研究机构: 中国科学院计算技术研究所、中国科学院大学
➡️ 问题背景:尽管多模态大语言模型(MLLMs)在多种视觉-语言任务中取得了显著成果,但它们在人脸感知任务中的表现却鲜有研究。现有MLLMs在处理细粒度的人脸感知任务时存在困难,主要原因是训练数据中缺乏详细描述人脸的图像-文本数据集。
➡️ 研究动机:为了克服现有MLLMs在人脸感知任务中的局限性,研究团队设计了一种实用的数据集构建管道,并在此基础上开发了一种新型的多模态大脸感知模型(Face-MLLM)。该模型旨在提高对人脸特征的理解和处理能力,特别是在零样本学习任务中。
➡️ 方法简介:研究团队首先对LAION-Face数据集进行了重新标注,增加了详细的面部描述和属性标签。此外,他们还将传统的面部感知数据集重新格式化为问答(QA)格式,以适应MLLMs的训练需求。基于这些丰富数据集,研究团队提出了一种三阶段的训练方法,分别用于视觉-文本对齐、基础视觉问答能力的培养,以及特定人脸感知任务的优化。
➡️ 实验设计:实验在多个公开数据集上进行,包括传统的面部感知任务和新引入的零样本面部属性分析任务。实验设计了不同类型的面部属性和表情,以全面评估模型在不同任务中的表现。实验结果表明,Face-MLLM在多个面部感知任务中超越了现有的MLLMs,特别是在零样本面部属性分析任务中表现出色。

http://www.lqws.cn/news/571555.html

相关文章:

  • 代理模式 - Flutter中的智能替身,掌控对象访问的每一道关卡!
  • ⚙️ 深度学习模型编译器实战:解锁工业级部署新范式​​—— 基于PyTorch-MLIR的全流程优化指南(开源工具链集成)​​
  • Python银行管理系统01升级(适合初学者)
  • 【百日精通JAVA | 语法篇】static关键字
  • CppCon 2017 学习:Undefined Behavior in 2017
  • idea运行到远程机器 和 idea远程JVM调试
  • x86 rop攻击理解2
  • 设计模式-外观模式、适配器模式
  • 设备健康状态实时监测:从技术原理到中讯烛龙的智能实践
  • X-Search:Spring AI实现的AI智能搜索
  • redis延时双删,为什么第一次删除
  • 检查达梦外部表
  • ROS的可视化工具rviz介绍
  • wpf的Binding之UpdateSourceTrigger
  • PaddleNLP
  • 桌面小屏幕实战课程:DesktopScreen 18 FONTPAINT
  • RAG检索增强生成在垂类AI应用效能优化中的应用
  • 【硬核数学】6. 升级你的线性代数:张量,深度学习的多维数据语言《从零构建机器学习、深度学习到LLM的数学认知》
  • 【Java EE初阶 --- 多线程(进阶)】锁策略
  • 构建创意系统:驾驭Audition与Photoshop的AI之力,洞悉原子化设计哲学
  • Cursor1.1.6安装c++插件
  • MyBatis实战指南(八)MyBatis日志
  • 【数据集处理】基于 3D-GloBFP建筑轮廓数据 栅格化建筑数据(完整Python代码)
  • Day.46
  • 水果维生素含量排名详表
  • 【硬核数学】9. 驯服“梯度下降”:深度学习中的优化艺术与正则化技巧《从零构建机器学习、深度学习到LLM的数学认知》
  • 【JavaSE】反射学习笔记
  • 中州养老:学会设计数据库表
  • WebRTC(十三):信令服务器
  • Spring事件驱动模型核心:ApplicationEventMulticaster初始化全解析