Vllm方式部署模型

在魔塔社区查找相应的模型

已经安装了vllm，未安装vllm请查看Vllm安装。

通过sdk下载

确认参数cache_path

import sys
from modelscope import snapshot_download

def main():
    # ===== 固定缓存路径变量 =====
    cache_path = "/home/user/vllm/models/"

    # ===== 检查命令行参数 =====
    if len(sys.argv) < 2:
        print("用法: python download_model.py <model_name>")
        print("示例: python download_model.py Qwen/Qwen2.5-32B-Instruct-AWQ")
        sys.exit(1)

    model_name = sys.argv[1]

    # ===== 校验输入参数 =====
    if not model_name or '/' not in model_name:
        print(f"❌ 无效的模型名称: {model_name}")
        sys.exit(1)

    try:
        print(f"开始下载模型：{model_name}")
        print(f"缓存路径：{cache_path}")
        model_dir = snapshot_download(model_name, cache_dir=cache_path)
        print(f"✅ 模型已成功下载到：{model_dir}")
    except Exception as e:
        print(f"❌ 模型下载失败: {e}")
        sys.exit(1)

if __name__ == "__main__":
    main()

下载完成后，加载vllm虚拟环境进行模型启动。

1 2	cd /home/user/vllm source .venv/bin/activate

启动模型

1	vllm serve 模型地址模型参数模型端口 &

具体启动相关模型请看《各个模型的启动方式》，以下为演示示例：

vllm serve /home/user/vllm/models/Qwen/Qwen2.5-32B-Instruct-AWQ \ 
           --served-model-name Qwen2.5-32B-Instruct-AWQ \ 
           --port 8000 \
           --gpu-memory-utilization 0.55 \
           --api-key token-abc123 >/dev/null &

目前通过vllm安装的模型，且经过调试可用的模型如下：

Qwen2.5-32B-Instruct-AWQ # LLm模型
Qwen3-Reranker-0.6B      # 重排序模型
Qwen3-Embedding-0.6B     # 嵌入模型
Qwen2.5-VL-7B-Instruct   # OCR模型
whisper-large-v3-turbo   # 语音模型
Qwen3Guard-Gen-4B  	 		 # 安全模型
Qwen3Guard-Gen-0.6B	     # 安全模型

通过webUI启动的模型如下：

以下安装方式为git clone 到本地或从其他服务器上拷贝，然后启动webUI界面即可。

easy-dataset      	 # 数据处理
MonkeyOCR            # OCR模型
IndexTTS2         	 # 生成语音模型
DeepSeek-OCR      	 # OCR模型
LightRAG             # 知识图谱