$ sudo deploy --guide

OpenClaw
本地部署完整指南

vLLM + Qwen2.5 本地模型 — 秒级响应、完全免费的 AI 自动化方案

11 Steps ~30 min NVIDIA GPU
概述
为什么选择 vLLM?

OpenClaw 是一个开源 AI 助手,在自动化任务中需要模型具备良好的推理能力和工具调用(Tool Calling)能力。相比 Ollama,vLLM 提供更快的推理速度和更大的上下文支持。

远程集群 / 多 Agent
SGLang
分布式推理优化
单卡本地部署 推荐
vLLM
最佳单机解决方案
Step 01
安装 WSL2

在 PowerShell(以管理员身份运行)中执行以下命令,安装 Windows 子系统 Linux。

PowerShell (Admin)
wsl --install

安装完成后重启电脑,然后安装 Ubuntu:

PowerShell (Admin)
wsl --install -d Ubuntu

验证版本,确保输出为 WSL2:

PowerShell
wsl --version
建议提前安装 Windows Terminal(微软商店搜索即可),方便切换不同终端。
Step 02
CUDA 驱动支持

确认 Windows 已安装 NVIDIA 驱动,然后在 Windows 和 WSL Ubuntu 中分别运行以下命令:

Windows & WSL Ubuntu
nvidia-smi
如果 WSL 中能看到显卡信息(如 RTX 4090),说明 GPU 直通成功。若不显示,请先在 Windows 端更新 NVIDIA 驱动。
Step 03
安装 Python 环境

在 WSL Ubuntu 中更新系统并安装 Python 相关包:

WSL Ubuntu
# 更新系统 sudo apt update sudo apt upgrade -y # 安装 Python sudo apt install python3-pip python3-venv -y

创建并激活虚拟环境:

WSL Ubuntu
cd ~ python3 -m venv vllm-env source vllm-env/bin/activate
Step 04
安装 vLLM

在已激活的虚拟环境中安装 vLLM:

WSL Ubuntu (vllm-env)
pip install --upgrade pip pip install vllm

验证安装:

WSL Ubuntu (vllm-env)
python -c "import vllm; print('vLLM installed')"
Step 05
选择模型

推荐使用 Qwen2.5-14B-Instruct-AWQ,中文能力强、Agent 能力好、支持全面的工具调用。启动 vLLM 时会自动下载。

14B
Qwen2.5-14B-AWQ
24GB VRAM
7B
Qwen2.5-7B-AWQ
12GB VRAM
4B
Qwen2.5-4B
8GB VRAM
显存不足时请选择更小的模型,否则加载时会出现 Out of Memory 错误。
Step 06
启动 vLLM 服务

运行以下命令启动 OpenAI 兼容 API 服务(首次运行会自动下载模型):

WSL Ubuntu (vllm-env)
python -m vllm.entrypoints.openai.api_server \ --model Qwen/Qwen2.5-14B-Instruct-AWQ \ --quantization awq_marlin \ --gpu-memory-utilization 0.9 \ --max-model-len 32768 \ --enable-auto-tool-choice \ --tool-call-parser hermes
请根据显卡显存适当调整 --max-model-len 参数。RTX 4090 (24GB) 可设为 32768。
Step 07
测试模型连接

在 Windows PowerShell 中测试 API 是否正常运行:

Windows PowerShell
curl http://127.0.0.1:8000/v1/models

返回 Qwen/Qwen2.5-14B-Instruct-AWQ 说明服务已正常启动。

Step 08
安装 OpenClaw

在 WSL 子系统里安装 Node.js 和 OpenClaw:

WSL Ubuntu — 安装 Node.js
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash - sudo apt install -y nodejs
WSL Ubuntu — 安装 OpenClaw
sudo npm install -g openclaw@latest
Step 09
配置本地模型

运行配置向导,选择自定义模型提供商:

WSL Ubuntu
openclaw onboard
CONFIG PARAMETERS
Base URL http://127.0.0.1:8000/v1
API Key 123456 (随意填写)
模型名称 Qwen2.5-14B-Instruct-AWQ
Step 10
参数优化 & 长对话处理

在 OpenClaw 中设置以下参数以获得最佳体验:

Context Length
6K–8K
Temperature
0.7
Max Tokens
2048

解决长对话卡顿:在 OpenClaw 的 System Prompt 中加入以下内容,让模型自动压缩历史对话:

System Prompt
When the conversation becomes long, summarize previous messages into a short memory. Keep the memory under 200 tokens.
性能参考
RTX 4090 实测数据

使用 Qwen2.5-14B-Instruct-AWQ 模型在 RTX 4090 上的实际运行表现:

指标数值
Token 生成速度90–130 token/s
首 Token 延迟0.4–0.8 秒
最大上下文32K tokens
显存占用10–12 GB