OpenClaw 是一个开源 AI 助手,在自动化任务中需要模型具备良好的推理能力和工具调用(Tool Calling)能力。相比 Ollama,vLLM 提供更快的推理速度和更大的上下文支持。
在 PowerShell(以管理员身份运行)中执行以下命令,安装 Windows 子系统 Linux。
安装完成后重启电脑,然后安装 Ubuntu:
验证版本,确保输出为 WSL2:
确认 Windows 已安装 NVIDIA 驱动,然后在 Windows 和 WSL Ubuntu 中分别运行以下命令:
在 WSL Ubuntu 中更新系统并安装 Python 相关包:
创建并激活虚拟环境:
在已激活的虚拟环境中安装 vLLM:
验证安装:
推荐使用 Qwen2.5-14B-Instruct-AWQ,中文能力强、Agent 能力好、支持全面的工具调用。启动 vLLM 时会自动下载。
运行以下命令启动 OpenAI 兼容 API 服务(首次运行会自动下载模型):
--max-model-len 参数。RTX 4090 (24GB) 可设为 32768。
在 Windows PowerShell 中测试 API 是否正常运行:
返回 Qwen/Qwen2.5-14B-Instruct-AWQ 说明服务已正常启动。
在 WSL 子系统里安装 Node.js 和 OpenClaw:
运行配置向导,选择自定义模型提供商:
http://127.0.0.1:8000/v1
123456
(随意填写)
Qwen2.5-14B-Instruct-AWQ
在 OpenClaw 中设置以下参数以获得最佳体验:
解决长对话卡顿:在 OpenClaw 的 System Prompt 中加入以下内容,让模型自动压缩历史对话:
使用 Qwen2.5-14B-Instruct-AWQ 模型在 RTX 4090 上的实际运行表现:
| 指标 | 数值 |
|---|---|
| Token 生成速度 | 90–130 token/s |
| 首 Token 延迟 | 0.4–0.8 秒 |
| 最大上下文 | 32K tokens |
| 显存占用 | 10–12 GB |