当前位置: 首页 > news >正文

视觉前沿算法复现环境配置1——2025CVPR风格迁移网络SaMam

本文记录2025CVPR风格迁移网络——SaMam的环境配置方法。
风格迁移网络的目的是首先学习模板图像的风格样式,然后通过深度学习方法把待转换的图像转换成与模板图像相似的风格样式,这种方法可以考虑用在目标检测等场景中对数据集进行扩增,达到丰富数据集的目的。
它的效果可以直观地通过下面这张图展示出来:
在这里插入图片描述
代码的github官网链接为:https://github.com/Chernobyllight/SaMam?tab=readme-ov-file
官网的环境配置版本中cuda版本太新,不好用,这里记录我的环境配置:

python=3.10.14
pytorch=2.2.2
cuda=12.1
torchvision==0.17.2
causal-conv1d>=1.4.0
其他的没有特别固定版本

在配置环境前,要确认自己的系统cuda版本也是12.1,也就是nvcc --version的输出版本是12.1,否则会报错:

RuntimeError: 
The detected CUDA version (11.8) mismatches the version that was used to compile
PyTorch (12.1). Please make sure to use the same CUDA versions.

下面正式开始配置环境。首先在官网下载好SaMam的代码,进入代码目录。
创建conda虚拟环境:

conda create -n SaMam python=3.10.14 -y

安装torch:

conda install pytorch==2.2.2 torchvision==0.17.2 torchaudio==2.2.2 pytorch-cuda=12.1 -c pytorch -c nvidia

安装causal-conv1d库:

pip install causal-conv1d>=1.4.0

安装mamba-ssm库:

pip install mamba-ssm

这里可能会报两种错,一种是numpy的版本太新,需要回退到2.0.0之前的版本:

pip install numpy==1.26.4

一种可能是因为没有挂梯子,那就需要在一个有梯子的电脑上访问官网下载对应版本的mamba-ssm,比如说对于我的版本,需要选择如下图所示的镜像文件:
在这里插入图片描述
图中,cu12对应cuda12.x版本,torch2.2对应pytorch2.2.x版本,cp310对应python3.10.x版本。
下载下来后把文件上传到SaMam项目文件夹下:
在这里插入图片描述
安装mamba-ssm文件夹:

pip install mamba_ssm-2.2.4+cu12torch2.2cxx11abiTRUE-cp310-cp310-linux_x86_64.whl

安装pytorch_lightning库:

pip install pytorch_lightning

此时通过以下代码运行风格迁移代码:

cd TEST/
python test_image.py --content-dir 待迁移的原图像文件夹路径 \--style-dir 用于迁移的风格模板图像文件夹路径 \--output-dir 迁移后的图像的存储路径 \--model_ckpt 模型文件,在官网下载

模型文件在这里下载:
在这里插入图片描述
如果出现mamba与pytorch版本不对应的报错,那就需要从源码克隆并编译 mamba-ssm:

# 克隆仓库
git clone https://github.com/state-spaces/mamba.git
cd mamba/# 编译mamba-ssm
python setup.py install

这样基本上就没问题了,运行成功的输出如下:
在这里插入图片描述

http://www.lqws.cn/news/156367.html

相关文章:

  • 【MATLAB去噪算法】基于CEEMDAN联合小波阈值去噪算法(第四期)
  • Socket编程UDP\TCP
  • 从理论崩塌到新路径:捷克科学院APL Photonics论文重构涡旋光技术边界
  • vue-router路由问题:可以通过$router.push()跳转,但刷新后又变成空白页面
  • 【Java Web】9.Maven高级
  • 【opencv】基础知识到进阶(更新中)
  • 老项目的xtp1.19升级否
  • 开疆智能Etherenet转Modbus网关连接欧姆龙PLC配置案例
  • 为什么需要自动下载浏览器驱动?
  • 如何实现ModbusRTU转ProfibusDP网关与三菱PLC的完美通讯!
  • 广东餐饮服务初级证值得考吗?
  • 【Python训练营打卡】day44 @浙大疏锦行
  • C#、VB.net——如何设置窗体应用程序的外边框不可拉伸
  • dvwa10——XSS(DOM)
  • 使用 Preetham 天空模型与硬边太阳圆盘实现真实感天空渲染
  • 【iOS】cache_t分析
  • 益莱储参加 Keysight World 2025,助力科技加速创新
  • C# ExcelWorksheet 贴图
  • 一些实用的chrome扩展0x01
  • C及C++编译链接过程详解
  • Devops系列---python基础篇二
  • LSTM-XGBoost多变量时序预测(Matlab完整源码和数据)
  • 【Go】3、Go语言进阶与依赖管理
  • 【VLAs篇】02:Impromptu VLA—用于驱动视觉-语言-动作模型的开放权重和开放数据
  • 【图像处理3D】:世界坐标系
  • React状态管理Context API + useReducer
  • 论文笔记——相干体技术在裂缝预测中的应用研究
  • Spring Boot-面试题(52)
  • Navicat-16.3.9 windows版本 MySQL客户端可视化工具 中文绿色版 无需补丁,无需破解 解压就能用
  • 从Gartner报告看Atlassian在生成式AI领域的创新路径与实践价值