一、系统级性能优化
-
资源精细化控制
- 内存与CPU限制:通过Docker运行时参数限制资源(如
--memory="4g"
、--cpus="2"
),避免模型过度占用系统资源,提升稳定性 。 - GPU加速:安装CUDA驱动并配置
OLLAMA_NUM_GPU=2
,启用混合精度计算,显著提升推理速度 。 - 并发参数调优:调整
thread_count
和max_memory
环境变量,平衡多任务负载 。
-
存储与网络优化
- 外置存储:使用
--ollama-dir
指定外置硬盘路径,缓解系统盘压力 。 - 局域网共享:配置
export OLLAMA_HOST=0.0.0.0:11434
,实现多设备模型共享,减少重复部署 。