Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf大模型本地部署指南：从下载到运行全流程（CPU+大内存也能玩转大模型）

一、前提提醒

重点：能纯CPU跑，大概需要26G内存。（我停止运行后，已使用内存从32G降到6G）

也可以CPU+GPU一起跑大概需要(26G - 显存 × 2)内存

本人刷视频刷到llmfit软件，发现它说我32G内存+8G显存的电脑上能部署千问3 30B这种大模型

我感到非常兴奋，30B啊，这可是30B啊，很久以前我部署过7B大小的模型，那7B真的跟个小学生一样，推理能力差，记忆能力差，输出速度还慢。现在跟我说，我能部署30B的大模型，这我真得尝试尝试了

后面也是成功部署到本地，且推理能力和记忆能力比7B强好多好多，给你们看看实际用了多少内存显存。
下面图片的运行参数是-ngl 16 -c 8192 -t 8（16块专家在显卡上跑，上下文长度8192token，用CPU 8个线程）显存用了7G，内存用了11.5G

(i3 12100 RTX2080) cpu+gpu输出速度在11~15 token/s 纯cpu输出速度大概10 token/s

因为是要支持CPU参与运行的，所以我下的模型是GGUF版的IQ4_NL压缩模式

2. 放置模型文件

cmd窗口运行 nvidia-smi 查看目前驱动最高支持cuda版本，CUDA Version 必须高于等于12.4。

1	nvidia-smi

低于12.4的自己安装新的显卡驱动吧，我仅个人推荐581版

安装后，cmd窗口运行nvcc --version 检测是否安装成功

1	nvcc --version

出现Cuda compilation tools, release 12.4就成功了

以管理员身份打开 CMD，导航至 llama 目录（例如 cd C:\llama）。

1	cd 你的llama目录下

执行以下命令启动服务：

1	llama-server.exe -m models\你的模型 -ngl 12 -c 4096 -t 8 --port 8082llama-server.exe -m models\Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf -ngl 12 -c 4096 -t 8 --port 8082

移除 -ngl 参数，则完全依赖 CPU 计算：（如果没装cuda，llama自动忽略 -ngl参数）

此图运行的12专家，70000上下文，内存也消耗的更多，非常极限了

感觉16专家 + 8192上下文适合短对话
12专家 + 几万的上下文适合长文本对话
14专家的我还没试过，感觉会更适合8G显卡，能支持不错的上下文
上下文溢出，llama会自动降到只剩256，大家尽管挑战自己的极限

问下它一些问题，例如：用python写一个冒泡排序

可以看出它这次对话使用了1008 token，花了1分8秒时间输出，速度为14.7 t/s

下图是继续对话，可以看到输入框上有个Context：1180/8192 (14%) 这是我给他设置的 8192上下文上限，之前的对话以及正在输出的都会占用这上限，尽量让其别超出！！

左上角还有个 MCP Servers，用了配置模型的参数等等

配置temperature等等

还能配置system message等等

配置低显存少（8G）的能跑Qt C++的大模型推荐：

模型	架构	显存占用	系统内存	Qt核心强项	适合场景
CodeLlama 13B Dense	稠密	7.5G（全 GPU）	4~6G	QML、Qt Quick、英文规范 UI	纯界面、嵌入式 QML、追求极速
Qwen3-Coder 30B-A3B MoE	MoE 激活 3B	6.5~7.5G	12~18G	中文、大型 Widget、长 CMake	中文大型桌面项目
DeepSeek V2 Lite 16B MoE	MoE 激活 2.4B	6~7.2G	8~14G	C++ 底层、多线程、OpenGL、内存安全	复杂业务、图形、数据库 Qt 程序（最优 MoE 替代）
Qwen3.5-Coder 9B Dense	稠密	5.5~6.2G	5G 以内	Widget+QML 均衡、极速、中文友好	日常中小型 Qt 混合开发
Codestral 22B Dense	稠密	混合交换	16G+	256K 超长上下文、全局工程重构	英文大型项目一次性批量改代码
CodeGemma 7B	稠密	4.8G	4G	轻量代码填空、简单 UI 片段	小型 Demo、快速函数补全