当前位置: 首页 > news >正文

MajicTryOn(基于wanvideo的虚拟试穿项目)

网络结构

 Attention模块详解

        左边服装通过qwen2.5-VL-7B来生成详细的服装描述;线条提取器产生相应的线条map;garment和line map通过vae转换为潜在空间特征,然后分别经过patchfier,最后通过zero proj得到Garment Tokens和Line Tokens;右边是dit中的attention block模块(只包括cross attention部分),首先是Input Tokens 经过线性层和经过clip的图像tokens做交叉注意力计算,Text Tokens (文本通过umt5 文本编码器得到)经过线性层和经过线性层的Input Tokens 进行交叉注意力计算,后面将经过交叉注意力计算的文本特征和图像特征相加在一起;FGCA也同样是交叉注意力,只不过他们是将Line Tokens和Garment Tokens经过Linear得到的K,V分别堆叠在一起后再和Input Tokens进行叉注意力计算。最后将所有的经过注意力计算的特征相加在一起。需要注意的是一个轻量化Adapter模块:自适应服装特征分布 .

训练目标函数

 

 引入了一个mask区域loss计算,加强需要生成的衣服区域的生成保真度。

 数据和评估指标

 数据

VITON-HD

DressCode

ViViD

 评估指标

 SSIM, LPIPS, FID, and KID;前两个主要专注于两个图像像素的相似度,后两个主要专注于两个图像像素分布的相似度

 实现细节

预训练模型Wan2.1-Fun-14B-Control

第一阶段使用分辨率256-512的分辨率训练,第二阶段继续训练,在512-1024分辨率上

训练视频49帧,batch_size为2。第一阶段15k步数,第二阶段10K步数。

优化器 AdamW,学习率1e-5

机器配置8 NVIDIA H20 (96GB) GPUs

 

参考论文

https://arxiv.org/pdf/2505.21325

目前代码未开源

 

http://www.lqws.cn/news/191233.html

相关文章:

  • C++.OpenGL (7/64)摄像机(Camera)
  • Dify工具插件开发和智能体开发全流程
  • GNSS终端授时方式-合集:PPS、B码、NTP、PTP、单站授时,共视授时
  • go语言学习 第7章:数组
  • springcloud SpringAmqp消息队列 简单使用
  • MCP协议三种传输机制全解析
  • 【51单片机】0. 基础软件安装
  • 动量及在机器人控制中的应用
  • 数据治理在制造业的实践案例
  • 【AI】智驾地图在不同自动驾驶等级中的作用演变
  • 在maven项目中 继续增加maven 项目
  • Power Query动态追加查询
  • CPP基础
  • 内嵌式mqtt server
  • RNN和CNN使用场景区别
  • 【Auto.js例程】华为备忘录导出到其他手机
  • Levenberg-Marquardt算法详解和C++代码示例
  • 山东大学算法设计与分析复习笔记
  • VTK 显示文字、图片及2D/3D图
  • 基于STM32语音识别柔光台灯
  • logstash拉取redisStream的流数据,并存储ES
  • Python读取阿里法拍网的html+解决登录cookie
  • 宁乡地-气-碳-水相互作用综合观测数据集
  • 概念理解篇:线程同步之【互斥】
  • 《0/1背包》题集
  • 飞马LiDAR500雷达数据预处理
  • AOSP (Android11) 集成Google GMS三件套
  • 大模型时代的“思考“与“行动“:人工智能的认知革命
  • STM32标准库-TIM输出比较
  • iview Switch Tabs TabPane 使用提示Maximum call stack size exceeded堆栈溢出