Vllm方式部署模型
在魔塔社区查找相应的模型
已经安装了vllm,未安装vllm请查看Vllm安装。
通过sdk下载
确认参数cache_path
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
| import sys from modelscope import snapshot_download
def main(): cache_path = "/home/user/vllm/models/"
if len(sys.argv) < 2: print("用法: python download_model.py <model_name>") print("示例: python download_model.py Qwen/Qwen2.5-32B-Instruct-AWQ") sys.exit(1)
model_name = sys.argv[1]
if not model_name or '/' not in model_name: print(f"❌ 无效的模型名称: {model_name}") sys.exit(1)
try: print(f"开始下载模型:{model_name}") print(f"缓存路径:{cache_path}") model_dir = snapshot_download(model_name, cache_dir=cache_path) print(f"✅ 模型已成功下载到:{model_dir}") except Exception as e: print(f"❌ 模型下载失败: {e}") sys.exit(1)
if __name__ == "__main__": main()
|
下载完成后,加载vllm虚拟环境进行模型启动。
1 2
| cd /home/user/vllm source .venv/bin/activate
|
启动模型
1
| vllm serve 模型地址 模型参数 模型端口 &
|
具体启动相关模型请看《各个模型的启动方式》,以下为演示示例:
1 2 3 4 5
| vllm serve /home/user/vllm/models/Qwen/Qwen2.5-32B-Instruct-AWQ \ --served-model-name Qwen2.5-32B-Instruct-AWQ \ --port 8000 \ --gpu-memory-utilization 0.55 \ --api-key token-abc123 >/dev/null &
|
目前通过vllm安装的模型,且经过调试可用的模型如下:
1 2 3 4 5 6 7
| Qwen2.5-32B-Instruct-AWQ # LLm模型 Qwen3-Reranker-0.6B # 重排序模型 Qwen3-Embedding-0.6B # 嵌入模型 Qwen2.5-VL-7B-Instruct # OCR模型 whisper-large-v3-turbo # 语音模型 Qwen3Guard-Gen-4B # 安全模型 Qwen3Guard-Gen-0.6B # 安全模型
|
通过webUI启动的模型如下:
以下安装方式为git clone 到本地或从其他服务器上拷贝,然后启动webUI界面即可。
1 2 3 4 5
| easy-dataset # 数据处理 MonkeyOCR # OCR模型 IndexTTS2 # 生成语音模型 DeepSeek-OCR # OCR模型 LightRAG # 知识图谱
|