当前位置: 首页 > news >正文

Molmo and PixMo论文精读

一些收获:

1. 学到了 encoder 编码带有重叠的patches 然后传没有重叠的给llm

2. 直接用未裁剪的图片 效果不及重叠裁剪的

3. 带有坐标的标注数据


摘要:当前最先进的vlms仍为专有技术,性能最强的开源权重模型严重依赖专有vlms生成的合成数据,实质上是对闭源vlms的蒸馏复现。贡献:名为pixmo的全新数据集集合,包括:用于预训练的高细节图像描述数据集、用于微调的自由形式图像问答数据集、创新的2d指向数据集「2d指向数据集是一种专门用于训练vlm理解图像空间位置关系的新型标注数据,其核心是让模型学会将自然语言中的空间描述与图像中具体的2d坐标位置关联起来」,所有数据未使用外部vlm收集。

引言:

我们的成功源于:谨慎的模型设计 精心调优的训练流程 最关键的是全新高质量数据集PixMo(Molmo的像素)。

架构:

预处理模块:将输入图像转换为多尺度、多裁剪区域多图像

vit图像编码器:独立计算每个patch的特征

视觉语言连接器:将patch特征池化并投影到llm的嵌入空间

仅解码器llm

----

基于此模板,我们通过选择不同视觉编码器和LLM构建模型家族,保持训练数据和方案的一致性(仅学习率调整)。主要组件选择:

  • 视觉编码器:优先使用OpenAI的ViT-L/14 336px CLIP模型(因初期实验表现优异),但SigLIP[130]和全开源的MetaCLIP[118]也可达到类似效果(见第6节);

  • LLM:涵盖不同规模和开放等级:

    • 全开源:OLMo-7B-1024-preview、OLMoE-1B-7B(最高效模型);

    • 开源权重:Qwen2 7B[120]、Qwen2 72B(最佳性能模型)。

重叠patch:vit计算重叠的编码 但是传给llm是只取非重叠区域的

 

http://www.lqws.cn/news/445123.html

相关文章:

  • Java SE - String自定义类型
  • Docker 日志
  • XMOS基于边缘AI+DSP+MCU+I/O智算芯片的音频解决方案矩阵引领行业创新潮流
  • 运维人员常用网站列表
  • 【深度学习】条件随机场(CRF)深度解析:原理、应用与前沿
  • day35-Django(1)
  • MySQL 面试之事务和锁篇
  • 如何设计可维护、可扩展的测试框架
  • 软件范式正在经历第三次革命
  • 全网独家源码出售,电商任务系统补单平台系统源码部署搭建全开源支持二次开发
  • ubuntu 系统 pgm图片和png相互转化
  • Haproxy搭建web集群
  • 泛微OAe9-后端二开常见数据库操作
  • C++实现手写strlen函数
  • AI Agent与Agentic AI:原理、应用、挑战与未来展望
  • C++11 lambda 表达
  • c++读写锁
  • CppCon 2017 学习:folly::Function A Non-copyable Alternative to std::function
  • AWK在网络安全中的高效应用:从日志分析到威胁狩猎
  • 基于Python的机动车辆推荐及预测分析系统
  • GRBL_UNO R3编译下载
  • 2025虚幻引擎文件与文件夹命名规律
  • 质检滞后?物料浪费?MES系统破解传统制造七大死结
  • 火山引擎TTS使用体验
  • VAE:变分自编码器
  • CHATERM AI:开启云资源氛围管理新篇章!
  • C++位图
  • 数据结构 6(算法)
  • Python 开发环境全栈隔离架构:从 Anaconda 到 PyCharm 的四级防护体系
  • GNSS介绍