OpenClaw 本地部署完整指南

概述

为什么选择 vLLM？

OpenClaw 是一个开源 AI 助手，在自动化任务中需要模型具备良好的推理能力和工具调用（Tool Calling）能力。相比 Ollama，vLLM 提供更快的推理速度和更大的上下文支持。

远程集群 / 多 Agent

SGLang

分布式推理优化

单卡本地部署 推荐

vLLM

最佳单机解决方案

Step 01

安装 WSL2

在 PowerShell（以管理员身份运行）中执行以下命令，安装 Windows 子系统 Linux。

PowerShell (Admin)
wsl --install

安装完成后重启电脑，然后安装 Ubuntu：

PowerShell (Admin)
wsl --install -d Ubuntu

验证版本，确保输出为 WSL2：

PowerShell
wsl --version

建议提前安装 Windows Terminal（微软商店搜索即可），方便切换不同终端。

Step 02

CUDA 驱动支持

确认 Windows 已安装 NVIDIA 驱动，然后在 Windows 和 WSL Ubuntu 中分别运行以下命令：

Windows & WSL Ubuntu
nvidia-smi

如果 WSL 中能看到显卡信息（如 RTX 4090），说明 GPU 直通成功。若不显示，请先在 Windows 端更新 NVIDIA 驱动。

Step 03

安装 Python 环境

在 WSL Ubuntu 中更新系统并安装 Python 相关包：

WSL Ubuntu
# 更新系统
sudo apt update
sudo apt upgrade -y

# 安装 Python
sudo apt install python3-pip python3-venv -y

创建并激活虚拟环境：

WSL Ubuntu
cd ~
python3 -m venv vllm-env
source vllm-env/bin/activate

Step 04

安装 vLLM

在已激活的虚拟环境中安装 vLLM：

WSL Ubuntu (vllm-env)
pip install --upgrade pip
pip install vllm

验证安装：

WSL Ubuntu (vllm-env)
python -c "import vllm; print('vLLM installed')"

Step 05

选择模型

推荐使用 Qwen2.5-14B-Instruct-AWQ，中文能力强、Agent 能力好、支持全面的工具调用。启动 vLLM 时会自动下载。

14B

Qwen2.5-14B-AWQ

24GB VRAM

7B

Qwen2.5-7B-AWQ

12GB VRAM

4B

Qwen2.5-4B

8GB VRAM

显存不足时请选择更小的模型，否则加载时会出现 Out of Memory 错误。

Step 06

启动 vLLM 服务

运行以下命令启动 OpenAI 兼容 API 服务（首次运行会自动下载模型）：

WSL Ubuntu (vllm-env)
python -m vllm.entrypoints.openai.api_server \
  --model Qwen/Qwen2.5-14B-Instruct-AWQ \
  --quantization awq_marlin \
  --gpu-memory-utilization 0.9 \
  --max-model-len 32768 \
  --enable-auto-tool-choice \
  --tool-call-parser hermes

请根据显卡显存适当调整 --max-model-len 参数。RTX 4090 (24GB) 可设为 32768。

Step 07

测试模型连接

在 Windows PowerShell 中测试 API 是否正常运行：

Windows PowerShell
curl http://127.0.0.1:8000/v1/models

返回 Qwen/Qwen2.5-14B-Instruct-AWQ 说明服务已正常启动。

Step 08

安装 OpenClaw

在 WSL 子系统里安装 Node.js 和 OpenClaw：

WSL Ubuntu — 安装 Node.js
curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install -y nodejs

WSL Ubuntu — 安装 OpenClaw
sudo npm install -g openclaw@latest

Step 09

配置本地模型

运行配置向导，选择自定义模型提供商：

WSL Ubuntu
openclaw onboard

CONFIG PARAMETERS

Base URL http://127.0.0.1:8000/v1

API Key 123456 （随意填写）

模型名称 Qwen2.5-14B-Instruct-AWQ

Step 10

参数优化 & 长对话处理

在 OpenClaw 中设置以下参数以获得最佳体验：

Context Length

6K–8K

Temperature

0.7

Max Tokens

2048

解决长对话卡顿：在 OpenClaw 的 System Prompt 中加入以下内容，让模型自动压缩历史对话：

System Prompt
When the conversation becomes long,
summarize previous messages into a short memory.
Keep the memory under 200 tokens.

性能参考

RTX 4090 实测数据

使用 Qwen2.5-14B-Instruct-AWQ 模型在 RTX 4090 上的实际运行表现：

指标	数值
Token 生成速度	90–130 token/s
首 Token 延迟	0.4–0.8 秒
最大上下文	32K tokens
显存占用	10–12 GB