本地部署Qwen2.5-Omni 模型的详细步骤和命令清单:
先决条件:
- 一个配备 NVIDIA GPU 的系统(视频中使用的是 RTX A6000 48GB VRAM,但 22GB+ 显存应该也可以工作)。
- 系统已安装 NVIDIA 驱动和 CUDA(视频中使用的是 12.1 版本)。
- 已安装 Conda(或 Miniconda/Anaconda)。
安装步骤和命令:
- 创建并激活 Conda 环境:
- 创建一个名为
qwen_omni
的新 Conda 环境(使用 Python 3.10)并激活它。
(注意:视频中使用了
&& conda activate qwen_omni
将两个命令在一行内执行,但分开写更清晰。) - 创建一个名为
-
安装 PyTorch 和基础依赖:
- 安装 PyTorch、TorchVision 和 TorchAudio,使用 CUDA 12.1 的索引。
- 安装其他必要的 Python 库。
- 安装 CUDA Toolkit (如果安装过cuda驱动可以忽略在 Conda 环境内):
- 从 Nvidia Conda 渠道安装特定操作所需的 CUDA Toolkit。
- (可选)检查 nvcc 版本(如视频所示):
- 从 GitHub 安装特定版本的 Transformers:
- 为了保险起见,卸载任何现有的 Transformers 安装。
- 直接从 GitHub commit/Pull Request 安装 Qwen-Omni 需要的特定 Transformers 版本。
- 安装额外的依赖项(有些可能已安装)。
- 安装 Flash Attention 和 Qwen Omni Utils:
- 安装/更新 Flash Attention(为较新 GPU 优化)。使用
--no-build-isolation
标志避免潜在的构建问题。
- 安装 Qwen 特定的工具包,包括用于读取视频的
decord
额外依赖。
- 安装/更新 Flash Attention(为较新 GPU 优化)。使用
- 准备 Python 脚本(可选):
- 这些命令会创建用于存放代码的目录和空的 Python 文件。
- 运行推理脚本(模型下载):
- 运行 Python 脚本。首次运行时,会下载模型权重(根据网络速度,这可能需要一些时间)。
完成这些步骤后,环境应该已经设置好,模型可以用于文本、音频、图像或视频输入的推理,正如提供的 Python 代码 (app.py
) 中所示。