Vllm方式部署模型
LiuSovia 化神

Vllm方式部署模型

魔塔社区查找相应的模型

已经安装了vllm,未安装vllm请查看Vllm安装。

通过sdk下载

确认参数cache_path

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
import sys
from modelscope import snapshot_download

def main():
# ===== 固定缓存路径变量 =====
cache_path = "/home/user/vllm/models/"

# ===== 检查命令行参数 =====
if len(sys.argv) < 2:
print("用法: python download_model.py <model_name>")
print("示例: python download_model.py Qwen/Qwen2.5-32B-Instruct-AWQ")
sys.exit(1)

model_name = sys.argv[1]

# ===== 校验输入参数 =====
if not model_name or '/' not in model_name:
print(f"❌ 无效的模型名称: {model_name}")
sys.exit(1)

try:
print(f"开始下载模型:{model_name}")
print(f"缓存路径:{cache_path}")
model_dir = snapshot_download(model_name, cache_dir=cache_path)
print(f"✅ 模型已成功下载到:{model_dir}")
except Exception as e:
print(f"❌ 模型下载失败: {e}")
sys.exit(1)

if __name__ == "__main__":
main()

下载完成后,加载vllm虚拟环境进行模型启动。

1
2
cd /home/user/vllm
source .venv/bin/activate

启动模型

1
vllm serve   模型地址  模型参数 模型端口 &

具体启动相关模型请看《各个模型的启动方式》,以下为演示示例:

1
2
3
4
5
vllm serve /home/user/vllm/models/Qwen/Qwen2.5-32B-Instruct-AWQ \ 
--served-model-name Qwen2.5-32B-Instruct-AWQ \
--port 8000 \
--gpu-memory-utilization 0.55 \
--api-key token-abc123 >/dev/null &

目前通过vllm安装的模型,且经过调试可用的模型如下:

1
2
3
4
5
6
7
Qwen2.5-32B-Instruct-AWQ # LLm模型
Qwen3-Reranker-0.6B # 重排序模型
Qwen3-Embedding-0.6B # 嵌入模型
Qwen2.5-VL-7B-Instruct # OCR模型
whisper-large-v3-turbo # 语音模型
Qwen3Guard-Gen-4B # 安全模型
Qwen3Guard-Gen-0.6B # 安全模型

通过webUI启动的模型如下:

以下安装方式为git clone 到本地或从其他服务器上拷贝,然后启动webUI界面即可。

1
2
3
4
5
easy-dataset      	 # 数据处理
MonkeyOCR # OCR模型
IndexTTS2 # 生成语音模型
DeepSeek-OCR # OCR模型
LightRAG # 知识图谱
 评论
评论插件加载失败
正在加载评论插件