在自己电脑上跑大模型需要什么配置？Qwen3.5-9B 本地部署完整指南

想在自己的电脑上运行大模型，体验 AI 助手的强大功能吗？今天给大家介绍一个开源项目 Qwen3.5-9B ToolHub，它能让你在本地轻松运行一个功能完整的 AI 助手。最重要的是，你不需要超高端的配置！

🖥️ 你的电脑需要什么配置？

很多人觉得运行大模型需要非常高端的电脑，其实不然。下面是 Qwen3.5-9B ToolHub 的最低配置要求：

硬件配置要求

配置项	要求	说明
操作系统	Windows 10 / 11	支持 WSL（Linux 子系统）
显卡（GPU）	NVIDIA 显卡	驱动版本 >= 525，建议 6GB 以上显存
内存（RAM）	建议 16GB 以上	8GB 也可以运行，但可能会卡
硬盘空间	至少 20GB 可用空间	用于存储模型文件和依赖
Python	3.10 及以上版本	需要加入系统 PATH
PowerShell	5.1 或 7.0+	Windows 自带

显存占用说明

模型本体：约 5.5GB（Q4_K_M 量化版本）
视觉投影模型：约 0.6GB
总计：约 6.1GB

💡 好消息：即使你的显卡只有 8GB 显存，也可以正常运行！如果显存更少（比如 6GB），可以通过调整上下文窗口大小来降低显存占用。

常见显卡参考

显卡型号	显存大小	能否运行
RTX 3060	12GB	✅ 完美运行
RTX 3050	8GB	✅ 可以运行
RTX 2060	6GB	⚠️ 可以运行（需调整参数）
GTX 1660 Ti	6GB	⚠️ 可以运行（需调整参数）
GTX 1650	4GB	❌ 显存不足

🎯 这个本地 AI 助手能做什么？

Qwen3.5-9B ToolHub 不是一个简单的聊天机器人，它内置了多种实用工具：

核心功能

💬 智能对话：流式输出，边生成边显示
🔍 联网搜索：实时搜索互联网，自动抓取网页内容并提炼关键信息
🖼️ 图像理解：上传图片后直接提问，支持局部放大分析细节，支持以图搜图
📁 文件浏览：浏览和读取本机文件（只读模式，不会修改你的文件）
🧠 深度思考：内置思维链，复杂问题可展开推理过程
🔌 API 接口：兼容 OpenAI API，可对接第三方客户端

内置工具清单

工具	功能
`web_search`	互联网搜索
`web_fetch`	抓取网页正文内容
`web_extractor`	提取网页结构化信息
`image_search`	按关键词搜索图片
`image_zoom_in_tool`	对图片指定区域放大查看
`filesystem`	浏览和读取本机文件（只读）
`read_memory`	读取已保存记忆

⚠️ 安全提示：网关模式下文件系统为只读，不提供系统命令执行与代码执行能力，安全可靠。

📦 完整安装教程

方法一：一键安装（推荐）

这是最简单的方法，只需双击一个文件：

下载项目

1 2	`git clone https://github.com/chixi4/Qwen3.5-9B-ToolHub.git cd Qwen3.5-9B-ToolHub`

双击 bootstrap.bat 文件

安装脚本会自动完成：
- ✅ 创建 Python 虚拟环境
- ✅ 安装所有依赖包
- ✅ 下载 llama.cpp CUDA 运行时
- ✅ 下载 Qwen3.5-9B 模型（约 5.5GB）
- ✅ 下载视觉投影模型（约 0.6GB）

方法二：命令行安装

如果你更喜欢用命令行，可以：

Windows CMD 方式：

1	`.\install.cmd`

PowerShell 方式（需要避免执行策略拦截）：

1	`powershell -NoProfile -ExecutionPolicy Bypass -File .\install.ps1`

WSL/Linux 方式：

1	`./install.sh`

💡 安装时间：根据网速不同，首次安装需要 10-30 分钟（主要是下载模型文件）。

🚀 启动和使用

1. 启动服务

方法 A：使用 CMD 文件（推荐）

1	`.\start_8080_toolhub_stack.cmd start`

方法 B：使用 PowerShell 脚本

1	`.\start_8080_toolhub_stack.ps1 start`

方法 C：在 WSL 中

1	`./start_8080_toolhub_stack.sh start`

⏱️ 首次启动需要 30-60 秒加载模型到 GPU，看到 “栈已启动” 表示就绪。

2. 打开网页

浏览器访问：http://127.0.0.1:8080

3. 开始使用

在网页界面中，你可以：

💬 直接输入问题聊天
🔍 让它搜索最新资讯：”今天有什么科技新闻？”
🖼️ 上传图片提问：”这张图片里有什么？”
📁 浏览本地文件：”帮我看看 D:\Documents 里有什么文件”

4. 停止服务

使用完毕后，记得停止服务：

1	`.\start_8080_toolhub_stack.cmd stop`

⚙️ 高级配置

配置文件

复制 .env.example 为 .env，可以自定义以下参数：

# 端口配置
GATEWAY_PORT=8080       # 网关端口
BACKEND_PORT=8081       # 模型后端端口

# 推理参数
THINK_MODE=think-on     # 思考模式：think-on 或 think-off
CTX_SIZE=16384          # 上下文窗口大小
IMAGE_MIN_TOKENS=256    # 图像最小 token 数
IMAGE_MAX_TOKENS=1024   # 图像最大 token 数
MMPROJ_OFFLOAD=off      # 视觉投影卸载开关

思考模式切换

开启思考模式（复杂问题会展开推理过程）：

1	`$env:THINK_MODE='think-on'; .\start_8080_toolhub_stack.cmd restart`

关闭思考模式（直接给出答案）：

1	`$env:THINK_MODE='think-off'; .\start_8080_toolhub_stack.cmd restart`

显存不足时的优化

如果遇到显存不足错误，可以尝试以下调整：

1. 减小上下文窗口（从 16K 降至 8K）：

1	`$env:CTX_SIZE='8192'; .\start_8080_toolhub_stack.cmd restart`

2. 减小图像 token 数：

1	`$env:IMAGE_MAX_TOKENS='512'; .\start_8080_toolhub_stack.cmd restart`

3. 关闭视觉投影卸载：

1	`$env:MMPROJ_OFFLOAD='off'; .\start_8080_toolhub_stack.cmd restart`

🔧 服务管理命令

# 启动服务
.\start_8080_toolhub_stack.cmd start

# 停止服务
.\start_8080_toolhub_stack.cmd stop

# 重启服务
.\start_8080_toolhub_stack.cmd restart

# 查看状态
.\start_8080_toolhub_stack.cmd status

# 查看日志
.\start_8080_toolhub_stack.cmd logs

🌐 API 使用

Qwen3.5-9B ToolHub 提供了兼容 OpenAI 的 API 接口，可以对接各种第三方客户端。

基本用法

curl http://127.0.0.1:8080/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "Qwen3.5-9B-Q4_K_M",
    "stream": true,
    "messages": [
      {"role": "user", "content": "今天有什么科技新闻？"}
    ]
  }'

在第三方客户端中使用

将 Base URL 设置为：http://127.0.0.1:8080/v1

支持的客户端：

ChatGPT Next Web
LobeChat
Open WebUI
BetterChatGPT
等所有支持 OpenAI API 的客户端

🏗️ 系统架构

┌──────────────────────────────────────────┐
│    浏览器 / 第三方客户端                  │
└────────────────────┬─────────────────────┘
                     │
                     ▼
┌──────────────────────────────────────────┐
│         网关层 (端口 8080)                │
│    run_8080_toolhub_gateway.py           │
├──────────────────────────────────────────┤
│  • OpenAI 兼容 API                        │
│  • 工具调用代理                           │
│  • 流式 SSE 输出                          │
│  • WebUI 透传                             │
└────────────────────┬─────────────────────┘
                     │
                     ▼
┌──────────────────────────────────────────┐
│        模型后端 (端口 8081)               │
│      llama-server (llama.cpp)            │
├──────────────────────────────────────────┤
│  • Qwen3.5-9B 推理                        │
│  • 视觉理解 (mmproj)                      │
│  • GPU 全层卸载 + Flash Attention        │
└──────────────────────────────────────────┘

❓ 常见问题解答

Q1: 页面报内容编码错误怎么办？

解决方法：重启服务

1	`.\start_8080_toolhub_stack.cmd restart`

Q2: 启动后模型未就绪？

排查步骤：

# 查看状态
.\start_8080_toolhub_stack.cmd status

# 查看日志
.\start_8080_toolhub_stack.cmd logs

Q3: 提示 llama-server.exe 不存在？

解决方法：重新执行安装脚本，确认文件存在：

1	`.tmp\llama_win_cuda\llama-server.exe`

Q4: 提示模型文件不完整？

检查以下文件是否存在：

.tmp\models\crossrepo\lmstudio-community__Qwen3.5-9B-GGUF\Qwen3.5-9B-Q4_K_M.gguf
.tmp\models\crossrepo\lmstudio-community__Qwen3.5-9B-GGUF\mmproj-Qwen3.5-9B-BF16.gguf

如果文件不完整，重新运行安装脚本。

Q5: 我的显卡是 AMD 或 Intel，能用吗？

目前不支持。此项目依赖 NVIDIA CUDA，只支持 NVIDIA 显卡。如果你有 AMD 或 Intel 显卡，可以：

使用 CPU 模式（会非常慢，不推荐）
考虑使用云服务（如 Google Colab）

Q6: 可以在 macOS 上运行吗？

理论上可以，但需要修改安装脚本：

macOS 使用 Metal 而不是 CUDA
需要下载 macOS 版本的 llama-server
可以参考 llama.cpp 官方文档进行适配

📚 项目目录结构

.
├── bootstrap.bat                    # Windows 一键安装入口
├── install.cmd                      # Windows 安装入口（免策略拦截）
├── install.ps1                      # 安装分发器（默认 Win，可选 WSL）
├── install.win.ps1                  # Windows 安装脚本（主流程）
├── install.sh                       # WSL 安装脚本
├── start_8080_toolhub_stack.cmd     # Windows 服务启停入口（免策略拦截）
├── start_8080_toolhub_stack.ps1     # Windows 服务启停管理（主流程）
├── switch_qwen35_webui.ps1          # Windows 模型后端控制（主流程）
├── start_8080_toolhub_stack.sh      # WSL 服务启停管理
├── switch_qwen35_webui.sh           # WSL 模型后端控制
├── run_8080_toolhub_gateway.py      # 网关服务
├── toolhub_gateway_agent.py         # 工具代理逻辑
├── agent_runtime/                   # 工具实现
├── requirements.txt                 # Python 依赖
├── .env.example                     # 配置模板
└── docs/                            # 补充文档

🎓 总结

Qwen3.5-9B ToolHub 是一个非常适合个人使用的本地 AI 助手解决方案：

优点

✅ 配置要求适中：8GB 显存即可运行
✅ 功能完整：联网搜索、图像理解、文件浏览
✅ 安装简单：一键安装，开箱即用
✅ 隐私安全：数据完全本地处理
✅ 开源免费：无需付费订阅

注意事项

⚠️ 只支持 Windows（或 WSL）
⚠️ 只支持 NVIDIA 显卡
⚠️ 需要一定的硬盘空间（约 20GB）

适合人群

🎯 有一定动手能力的技术爱好者
🎯 重视隐私，不想使用云服务的用户
🎯 想要本地部署 AI 助手的开发者
🎯 拥有 NVIDIA 显卡的 Windows 用户

🔗 相关链接

项目地址：https://github.com/chixi4/Qwen3.5-9B-ToolHub
Qwen3.5 官方：https://github.com/QwenLM/Qwen3
llama.cpp 官方：https://github.com/ggml-org/llama.cpp

希望这篇教程能帮你顺利在本地部署自己的 AI 助手！如果遇到问题，可以到项目的 GitHub Issues 中提问。

祝你使用愉快！ 🎉

赏

支付宝打赏

微信打赏

如果文章对你有帮助，欢迎点击上方按钮打赏作者，更多功能请访问博客站

AI工具

#AI工具 #大模型 #Qwen #本地部署

在自己电脑上跑大模型需要什么配置？Qwen3.5-9B 本地部署完整指南

https://blog.fxcxy.com/2026/03/06/在自己电脑上跑大模型需要什么配置？Qwen3-5-9B本地部署完整指南/

作者

spatacus

发布于

2026年3月6日

许可协议

保姆级教程：0基础搭建你的第一个AI智能助手军团（OpenClaw完整实战）下一篇