在自己电脑上跑大模型需要什么配置?Qwen3.5-9B 本地部署完整指南

想在自己的电脑上运行大模型,体验 AI 助手的强大功能吗?今天给大家介绍一个开源项目 Qwen3.5-9B ToolHub,它能让你在本地轻松运行一个功能完整的 AI 助手。最重要的是,你不需要超高端的配置

🖥️ 你的电脑需要什么配置?

很多人觉得运行大模型需要非常高端的电脑,其实不然。下面是 Qwen3.5-9B ToolHub 的最低配置要求

硬件配置要求

配置项 要求 说明
操作系统 Windows 10 / 11 支持 WSL(Linux 子系统)
显卡(GPU) NVIDIA 显卡 驱动版本 >= 525,建议 6GB 以上显存
内存(RAM) 建议 16GB 以上 8GB 也可以运行,但可能会卡
硬盘空间 至少 20GB 可用空间 用于存储模型文件和依赖
Python 3.10 及以上版本 需要加入系统 PATH
PowerShell 5.1 或 7.0+ Windows 自带

显存占用说明

  • 模型本体:约 5.5GB(Q4_K_M 量化版本)
  • 视觉投影模型:约 0.6GB
  • 总计:约 6.1GB

💡 好消息:即使你的显卡只有 8GB 显存,也可以正常运行!如果显存更少(比如 6GB),可以通过调整上下文窗口大小来降低显存占用。

常见显卡参考

显卡型号 显存大小 能否运行
RTX 3060 12GB ✅ 完美运行
RTX 3050 8GB ✅ 可以运行
RTX 2060 6GB ⚠️ 可以运行(需调整参数)
GTX 1660 Ti 6GB ⚠️ 可以运行(需调整参数)
GTX 1650 4GB ❌ 显存不足

🎯 这个本地 AI 助手能做什么?

Qwen3.5-9B ToolHub 不是一个简单的聊天机器人,它内置了多种实用工具:

核心功能

  1. 💬 智能对话:流式输出,边生成边显示
  2. 🔍 联网搜索:实时搜索互联网,自动抓取网页内容并提炼关键信息
  3. 🖼️ 图像理解:上传图片后直接提问,支持局部放大分析细节,支持以图搜图
  4. 📁 文件浏览:浏览和读取本机文件(只读模式,不会修改你的文件)
  5. 🧠 深度思考:内置思维链,复杂问题可展开推理过程
  6. 🔌 API 接口:兼容 OpenAI API,可对接第三方客户端

内置工具清单

工具 功能
web_search 互联网搜索
web_fetch 抓取网页正文内容
web_extractor 提取网页结构化信息
image_search 按关键词搜索图片
image_zoom_in_tool 对图片指定区域放大查看
filesystem 浏览和读取本机文件(只读)
read_memory 读取已保存记忆

⚠️ 安全提示:网关模式下文件系统为只读,不提供系统命令执行与代码执行能力,安全可靠。

📦 完整安装教程

方法一:一键安装(推荐)

这是最简单的方法,只需双击一个文件

  1. 下载项目

    1
    2
    git clone https://github.com/chixi4/Qwen3.5-9B-ToolHub.git
    cd Qwen3.5-9B-ToolHub
  2. 双击 bootstrap.bat 文件

    安装脚本会自动完成:

    • ✅ 创建 Python 虚拟环境
    • ✅ 安装所有依赖包
    • ✅ 下载 llama.cpp CUDA 运行时
    • ✅ 下载 Qwen3.5-9B 模型(约 5.5GB)
    • ✅ 下载视觉投影模型(约 0.6GB)

方法二:命令行安装

如果你更喜欢用命令行,可以:

Windows CMD 方式

1
.\install.cmd

PowerShell 方式(需要避免执行策略拦截):

1
powershell -NoProfile -ExecutionPolicy Bypass -File .\install.ps1

WSL/Linux 方式

1
./install.sh

💡 安装时间:根据网速不同,首次安装需要 10-30 分钟(主要是下载模型文件)。

🚀 启动和使用

1. 启动服务

方法 A:使用 CMD 文件(推荐)

1
.\start_8080_toolhub_stack.cmd start

方法 B:使用 PowerShell 脚本

1
.\start_8080_toolhub_stack.ps1 start

方法 C:在 WSL 中

1
./start_8080_toolhub_stack.sh start

⏱️ 首次启动需要 30-60 秒加载模型到 GPU,看到 “栈已启动” 表示就绪。

2. 打开网页

浏览器访问:http://127.0.0.1:8080

3. 开始使用

在网页界面中,你可以:

  • 💬 直接输入问题聊天
  • 🔍 让它搜索最新资讯:”今天有什么科技新闻?”
  • 🖼️ 上传图片提问:”这张图片里有什么?”
  • 📁 浏览本地文件:”帮我看看 D:\Documents 里有什么文件”

4. 停止服务

使用完毕后,记得停止服务:

1
.\start_8080_toolhub_stack.cmd stop

⚙️ 高级配置

配置文件

复制 .env.example.env,可以自定义以下参数:

1
2
3
4
5
6
7
8
9
10
# 端口配置
GATEWAY_PORT=8080 # 网关端口
BACKEND_PORT=8081 # 模型后端端口

# 推理参数
THINK_MODE=think-on # 思考模式:think-on 或 think-off
CTX_SIZE=16384 # 上下文窗口大小
IMAGE_MIN_TOKENS=256 # 图像最小 token 数
IMAGE_MAX_TOKENS=1024 # 图像最大 token 数
MMPROJ_OFFLOAD=off # 视觉投影卸载开关

思考模式切换

开启思考模式(复杂问题会展开推理过程):

1
$env:THINK_MODE='think-on'; .\start_8080_toolhub_stack.cmd restart

关闭思考模式(直接给出答案):

1
$env:THINK_MODE='think-off'; .\start_8080_toolhub_stack.cmd restart

显存不足时的优化

如果遇到显存不足错误,可以尝试以下调整:

1. 减小上下文窗口(从 16K 降至 8K):

1
$env:CTX_SIZE='8192'; .\start_8080_toolhub_stack.cmd restart

2. 减小图像 token 数

1
$env:IMAGE_MAX_TOKENS='512'; .\start_8080_toolhub_stack.cmd restart

3. 关闭视觉投影卸载

1
$env:MMPROJ_OFFLOAD='off'; .\start_8080_toolhub_stack.cmd restart

🔧 服务管理命令

1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 启动服务
.\start_8080_toolhub_stack.cmd start

# 停止服务
.\start_8080_toolhub_stack.cmd stop

# 重启服务
.\start_8080_toolhub_stack.cmd restart

# 查看状态
.\start_8080_toolhub_stack.cmd status

# 查看日志
.\start_8080_toolhub_stack.cmd logs

🌐 API 使用

Qwen3.5-9B ToolHub 提供了兼容 OpenAI 的 API 接口,可以对接各种第三方客户端。

基本用法

1
2
3
4
5
6
7
8
9
curl http://127.0.0.1:8080/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen3.5-9B-Q4_K_M",
"stream": true,
"messages": [
{"role": "user", "content": "今天有什么科技新闻?"}
]
}'

在第三方客户端中使用

将 Base URL 设置为:http://127.0.0.1:8080/v1

支持的客户端:

  • ChatGPT Next Web
  • LobeChat
  • Open WebUI
  • BetterChatGPT
  • 等所有支持 OpenAI API 的客户端

🏗️ 系统架构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
┌──────────────────────────────────────────┐
浏览器 / 第三方客户端
└────────────────────┬─────────────────────┘


┌──────────────────────────────────────────┐
网关层 (端口 8080)
run_8080_toolhub_gateway.py
├──────────────────────────────────────────┤
OpenAI 兼容 API
工具调用代理
流式 SSE 输出
WebUI 透传
└────────────────────┬─────────────────────┘


┌──────────────────────────────────────────┐
模型后端 (端口 8081)
llama-server (llama.cpp)
├──────────────────────────────────────────┤
Qwen3.5-9B 推理
视觉理解 (mmproj)
GPU 全层卸载 + Flash Attention
└──────────────────────────────────────────┘

❓ 常见问题解答

Q1: 页面报内容编码错误怎么办?

解决方法:重启服务

1
.\start_8080_toolhub_stack.cmd restart

Q2: 启动后模型未就绪?

排查步骤

1
2
3
4
5
# 查看状态
.\start_8080_toolhub_stack.cmd status

# 查看日志
.\start_8080_toolhub_stack.cmd logs

Q3: 提示 llama-server.exe 不存在?

解决方法:重新执行安装脚本,确认文件存在:

1
.tmp\llama_win_cuda\llama-server.exe

Q4: 提示模型文件不完整?

检查以下文件是否存在

  • .tmp\models\crossrepo\lmstudio-community__Qwen3.5-9B-GGUF\Qwen3.5-9B-Q4_K_M.gguf
  • .tmp\models\crossrepo\lmstudio-community__Qwen3.5-9B-GGUF\mmproj-Qwen3.5-9B-BF16.gguf

如果文件不完整,重新运行安装脚本。

Q5: 我的显卡是 AMD 或 Intel,能用吗?

目前不支持。此项目依赖 NVIDIA CUDA,只支持 NVIDIA 显卡。如果你有 AMD 或 Intel 显卡,可以:

  • 使用 CPU 模式(会非常慢,不推荐)
  • 考虑使用云服务(如 Google Colab)

Q6: 可以在 macOS 上运行吗?

理论上可以,但需要修改安装脚本:

  • macOS 使用 Metal 而不是 CUDA
  • 需要下载 macOS 版本的 llama-server
  • 可以参考 llama.cpp 官方文档进行适配

📚 项目目录结构

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
.
├── bootstrap.bat # Windows 一键安装入口
├── install.cmd # Windows 安装入口(免策略拦截)
├── install.ps1 # 安装分发器(默认 Win,可选 WSL)
├── install.win.ps1 # Windows 安装脚本(主流程)
├── install.sh # WSL 安装脚本
├── start_8080_toolhub_stack.cmd # Windows 服务启停入口(免策略拦截)
├── start_8080_toolhub_stack.ps1 # Windows 服务启停管理(主流程)
├── switch_qwen35_webui.ps1 # Windows 模型后端控制(主流程)
├── start_8080_toolhub_stack.sh # WSL 服务启停管理
├── switch_qwen35_webui.sh # WSL 模型后端控制
├── run_8080_toolhub_gateway.py # 网关服务
├── toolhub_gateway_agent.py # 工具代理逻辑
├── agent_runtime/ # 工具实现
├── requirements.txt # Python 依赖
├── .env.example # 配置模板
└── docs/ # 补充文档

🎓 总结

Qwen3.5-9B ToolHub 是一个非常适合个人使用的本地 AI 助手解决方案:

优点

  • 配置要求适中:8GB 显存即可运行
  • 功能完整:联网搜索、图像理解、文件浏览
  • 安装简单:一键安装,开箱即用
  • 隐私安全:数据完全本地处理
  • 开源免费:无需付费订阅

注意事项

  • ⚠️ 只支持 Windows(或 WSL)
  • ⚠️ 只支持 NVIDIA 显卡
  • ⚠️ 需要一定的硬盘空间(约 20GB)

适合人群

  • 🎯 有一定动手能力的技术爱好者
  • 🎯 重视隐私,不想使用云服务的用户
  • 🎯 想要本地部署 AI 助手的开发者
  • 🎯 拥有 NVIDIA 显卡的 Windows 用户

🔗 相关链接


希望这篇教程能帮你顺利在本地部署自己的 AI 助手!如果遇到问题,可以到项目的 GitHub Issues 中提问。

祝你使用愉快! 🎉

支付宝打赏 微信打赏

如果文章对你有帮助,欢迎点击上方按钮打赏作者,更多功能请访问博客站



在自己电脑上跑大模型需要什么配置?Qwen3.5-9B 本地部署完整指南
https://blog.fxcxy.com/2026/03/06/在自己电脑上跑大模型需要什么配置?Qwen3-5-9B本地部署完整指南/
作者
spatacus
发布于
2026年3月6日
许可协议