Wan2.1本地部署指南：在消费级GPU上运行强大的开源视频生成模型

引言

阿里开源的Wan2.1视频生成模型近期在AI社区引起了广泛关注，它不仅在多个基准测试中超越了包括Sora在内的多个知名模型，更重要的是它能够在消费级GPU上运行，让普通用户也能体验高质量的AI视频生成。本文将详细介绍Wan2.1的本地部署方法，帮助您快速上手这一强大的开源工具。

Wan2.1模型概述

Wan2.1是由阿里团队开发的开源视频生成模型，基于扩散变换器(Diffusion Transformer)技术，具有以下显著特点：

卓越性能：在vbench评测集中，Wan2.1以86.22%的总分位居榜首，超越了Sora(84.28%)、Luma(83.61%)等知名模型
硬件友好：1.3B模型仅需8.19GB VRAM，兼容大多数消费级GPU
快速生成：在RTX 4090上约4分钟可生成5秒480p视频(未使用量化优化)
多功能性：支持文本转视频(T2V)、图像转视频(I2V)、视频编辑等多种任务

硬件与软件要求

硬件配置

T2V-1.3B模型：最低8.2GB显存(生成480p视频)
T2V/I2V-14B模型：推荐≥16GB显存(支持720p)
显卡：NVIDIA显卡(RTX 3060及以上，显存≥8GB)

软件依赖

Python 3.10+
Git
CUDA 12.1+(50系显卡需CUDA 12.8)
建议使用虚拟环境(如venv)隔离依赖

本地部署方法

方法一：通过ComfyUI一键部署(推荐)

下载ComfyUI一键安装包
- 官方下载地址：点击前往
- 备用网盘地址：
  - 网盘A 提取码：hso4
  - 网盘B 提取码：hso4
下载必要模型文件
- 文本编码器(umt5_xxl_fp8_e4m3fn_scaled.safetensors)：
  - 存放位置：ComfyUI/models/text_encoders/
  - 备用下载：
  - 网盘A 提取码：md5E
  - 网盘B 提取码：md5E
- VAE(wan_2.1_vae.safetensors)：
  - 存放位置：ComfyUI/models/vae/
  - 备用下载：
  - 网盘A 提取码：gc1I
  - 网盘B 提取码：gc1I
- 视频生成模型：
  - 存放位置：ComfyUI/models/diffusion_models/
  - 备用下载：
  - 网盘A 提取码：zBH6
  - 网盘B 提取码：zBH6
  - 注意：建议使用fp16版本而非bf16版本，质量等级：fp16 > bf16 > fp8_scaled > fp8_e4m3fn
下载工作流文件
- 备用下载：
  - 网盘A 提取码：kxWS
  - 网盘B 提取码：kxWS

方法二：通过源代码部署

创建虚拟环境

conda create -n wan python=3.10
conda activate wan

克隆项目

git clone https://github.com/Wan-Video/Wan2.1.git
cd Wan2.1

安装依赖

修改requirements.txt，注释掉以下三行：

# flash_attn
# torch>=2.4.0
# torchvision>=0.19.0

然后运行：
```
pip install -r requirements.txt
```

单独安装Torch和Torchvision(根据CUDA版本)：

pip install torch torchvision --index-url https://download.pytorch.org/whl/cu126

安装flash_attn
- Windows用户可从GitHub下载适合的版本

下载模型

pip install modelscope
modelscope download Wan-AI/Wan2.1-T2V-1.3B --local_dir ./Wan2.1-T2V-1.3B

生成第一个视频

python generate.py --task t2v-1.3B --size 832*480 --ckpt_dir ./Wan2.1-T2V-1.3B --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

启动Gradio界面

cd gradio
# Windows:
set DASH_API_KEY=sk-xxxxxxxxx
python t2v_1.3B_singleGPU.py --prompt_extend_method dashscope --ckpt_dir ./Wan2.1-T2V-1.3B

远程访问配置

如果您希望在多设备或团队中共享本地部署的Wan2.1模型，可以通过Cpolar实现内网穿透：

安装Cpolar
- 官网地址：https://www.cpolar.com
- 注册账号并下载最新版本
创建隧道
- 登录后访问http://localhost:9200
- 创建新隧道：
  - 隧道名称：自定义(如wan21)
  - 协议：http
  - 本地地址：8188
  - 域名类型：随机域名
  - 地区：China Top
  - 高级：Http Auth(可选设置用户名密码)
远程访问
- 创建成功后，可在其他设备上使用生成的公网地址访问本地ComfyUI
- 首次登录可能需要加载工作流配置

使用建议

模型选择
- 对于8-12GB显存的显卡，建议使用1.3B模型
- 14B模型需要更高显存，但生成质量更好
生成参数
- 使用fp8/14b/480p/20steps/24fps参数时，RTX 4090生成3-5s视频约需5-10分钟
- 可调整步数和分辨率以获得更好效果
提示词技巧
- 详细的提示词能显著提升生成质量
- 可结合阿里云百炼API丰富提示词

常见问题

显存不足
- 尝试使用量化版本(fp8而非fp16)
- 降低分辨率或减少帧数
生成速度慢
- 检查CUDA和显卡驱动是否为最新版本
- 考虑使用云算力租赁服务临时提升算力
工作流加载问题
- 确保所有模型文件放置在正确目录
- 检查ComfyUI是否为最新版本

结语

Wan2.1的开源标志着AI视频生成技术向大众化迈出了重要一步。通过本地部署，用户不仅能够体验高质量的AI视频生成，还能完全掌控数据隐私和创作流程。随着技术的不断进步，我们有理由相信，AI视频创作将成为更多人表达创意的有力工具。

原创文章，作者：OXIDA，如若转载，请注明出处：https://www.lifeto.fun/archives/217

Wan2.1本地部署指南：在消费级GPU上运行强大的开源视频生成模型

Wan2.1本地部署指南：在消费级GPU上运行强大的开源视频生成模型

引言

Wan2.1模型概述

硬件与软件要求

硬件配置

软件依赖

本地部署方法

方法一：通过ComfyUI一键部署(推荐)

方法二：通过源代码部署

远程访问配置

使用建议

常见问题

结语

相关推荐

发表回复