Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf大模型本地部署指南:从下载到运行全流程(CPU+大内存也能玩转大模型)
一、前提提醒
重点:能纯CPU跑,大概需要26G内存。(我停止运行后,已使用内存从32G降到6G)
也可以CPU+GPU一起跑 大概需要(26G - 显存 × 2)内存
本人刷视频刷到llmfit软件,发现它说我32G内存+8G显存的电脑上能部署千问3 30B这种大模型
我感到非常兴奋,30B啊,这可是30B啊,很久以前我部署过7B大小的模型,那7B真的跟个小学生一样,推理能力差,记忆能力差,输出速度还慢。现在跟我说,我能部署30B的大模型,这我真得尝试尝试了
后面也是成功部署到本地,且推理能力和记忆能力比7B强好多好多,给你们看看实际用了多少内存显存。
下面图片的运行参数是-ngl 16 -c 8192 -t 8(16块专家在显卡上跑,上下文长度8192token,用CPU 8个线程)显存用了7G,内存用了11.5G
(i3 12100 RTX2080) cpu+gpu输出速度在11~15 token/s 纯cpu输出速度大概10 token/s
二、准备工作
1.下载 llama.cpp :
- 官方 GitHub 地址:https://github.com/ggml-org/llama.cpp/releases/
- 显卡是RTX2080,我下对应版本cuda12.4最好。40系50系选cuda13版本最好。
- 下载的是这个:llama 对应cuda12.4 b8771版
2.下载 千问3 coder 30B 模型文件:
因为是要支持CPU参与运行的,所以我下的模型是GGUF版的IQ4_NL压缩模式
- ModelScope 地址:Qwen3 coder 30B A3B instruct GGUF
- 下载的IQ4_NL压缩模型链接:Qwen3 coder 30B A3B instruct IQ4_NL GGUF
三、部署步骤
1. 解压 llama.cpp
- 将下载的
llama-b8771-bin-win-cuda-12.4-x64.zip解压到指定文件夹(例如 D:\llama)。 - 在解压后的文件夹内创建
models子目录。
2. 放置模型文件
- 将下载的
Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf文件放入models文件夹。
3. CUDA 下载以及安装(GPU参与工作一定要安装CUDA)
cmd窗口运行 nvidia-smi 查看目前驱动最高支持cuda版本,CUDA Version 必须高于等于12.4。
1 | nvidia-smi |
低于12.4的自己安装新的显卡驱动吧,我仅个人推荐581版
- 下载 CUDA 12.4 地址:https://developer.nvidia.com/cuda-12-4-0-download-archive
- 下载 CUDA 13.1 地址:https://developer.nvidia.com/cuda-13-1-0-download-archive
- 安装时一定要选择“自定义安装”,只勾选
CUDA安装。
安装后,cmd窗口运行nvcc --version 检测是否安装成功
1 | nvcc --version |
出现Cuda compilation tools, release 12.4就成功了
四. 运行模型服务
以管理员身份打开 CMD,导航至 llama 目录(例如 cd C:\llama)。
1 | cd 你的llama目录下 |
执行以下命令启动服务:
1 | llama-server.exe -m models\你的模型 -ngl 12 -c 4096 -t 8 --port 8082llama-server.exe -m models\Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf -ngl 12 -c 4096 -t 8 --port 8082 |
-ngl 12:指定多少个专家模块在 GPU 上运行(根据显存调整,8G 显存建议 12 - 16)。-c 4096:上下文长度上限(显存不足时可降低)。-t 8:使用的 CPU 线程数(我的i3-12100 为 4 核 8 线程 直接拉满8线程)。--port 8082:自定义端口号。
| 参数 | 作用 | 建议值(8G 显存) |
|---|---|---|
-ngl | 指定多少块专家模块在 GPU 上运行 | 12-16 |
-c | 最大上下文 token 数 | 4096-8192 |
-t | CPU 线程数 | 物理核心数 × 2 |
| --port | 自定义端口号 | 8082啥的 |
移除 -ngl 参数,则完全依赖 CPU 计算:(如果没装cuda,llama自动忽略 -ngl参数)
注意事项
- 该模型有128块专家。
- 显存不足时需降低
-ngl或-c值,让其进入内存。 - 首次加载模型时间较长,请耐心等待。
- 监控任务管理器确认 GPU 和内存占用情况。
此图运行的12专家,70000上下文,内存也消耗的更多,非常极限了
感觉16专家 + 8192上下文适合短对话
12专家 + 几万的上下文适合长文本对话
14专家的我还没试过,感觉会更适合8G显卡,能支持不错的上下文
上下文溢出,llama会自动降到只剩256,大家尽管挑战自己的极限
访问 Web 界面
- 浏览器打开:http://localhost:8082/
- 即可在网页端与模型交互
问下它一些问题,例如:用python写一个冒泡排序
可以看出它这次对话使用了1008 token,花了1分8秒时间输出,速度为14.7 t/s
下图是继续对话,可以看到输入框上有个Context:1180/8192 (14%) 这是我给他设置的 8192上下文 上限,之前的对话以及正在输出的都会占用这上限,尽量让其别超出!!
左上角还有个 MCP Servers,用了配置模型的参数等等
配置temperature等等
还能配置system message等等





















