一、前提提醒

重点:能纯CPU跑,大概需要26G内存。(我停止运行后,已使用内存从32G降到6G)

也可以CPU+GPU一起跑    大概需要(26G - 显存 × 2)内存

本人刷视频刷到llmfit软件,发现它说我32G内存+8G显存的电脑上能部署千问3 30B这种大模型

我感到非常兴奋,30B啊,这可是30B啊,很久以前我部署过7B大小的模型,那7B真的跟个小学生一样,推理能力差,记忆能力差,输出速度还慢。现在跟我说,我能部署30B的大模型,这我真得尝试尝试了

后面也是成功部署到本地,且推理能力和记忆能力比7B强好多好多,给你们看看实际用了多少内存显存。
下面图片的运行参数是-ngl 16 -c 8192 -t 8(16块专家在显卡上跑,上下文长度8192token,用CPU 8个线程)显存用了7G,内存用了11.5G

(i3 12100 RTX2080) cpu+gpu输出速度在11~15 token/s    纯cpu输出速度大概10 token/s


二、准备工作

1.下载 llama.cpp

2.下载 千问3 coder 30B 模型文件:

因为是要支持CPU参与运行的,所以我下的模型是GGUF版的IQ4_NL压缩模式

三、部署步骤

1. 解压 llama.cpp

  • 将下载的 llama-b8771-bin-win-cuda-12.4-x64.zip 解压到指定文件夹(例如 D:\llama)。
  • 在解压后的文件夹内创建 models 子目录。

2. 放置模型文件

  • 将下载的 Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf 文件放入 models 文件夹。

3. CUDA 下载以及安装(GPU参与工作一定要安装CUDA)

cmd窗口运行 nvidia-smi 查看目前驱动最高支持cuda版本,CUDA Version 必须高于等于12.4。

1
nvidia-smi

低于12.4的自己安装新的显卡驱动吧,我仅个人推荐581版

安装后,cmd窗口运行nvcc --version 检测是否安装成功

1
nvcc --version

出现Cuda compilation tools, release 12.4就成功了

四. 运行模型服务

以管理员身份打开 CMD,导航至 llama 目录(例如 cd C:\llama)。

1
cd 你的llama目录下

执行以下命令启动服务:

1
llama-server.exe -m models\你的模型 -ngl 12 -c 4096 -t 8 --port 8082llama-server.exe -m models\Qwen3-Coder-30B-A3B-Instruct-IQ4_NL.gguf -ngl 12 -c 4096 -t 8 --port 8082
  • -ngl 12:指定多少个专家模块在 GPU 上运行(根据显存调整,8G 显存建议 12 - 16)。
  • -c 4096:上下文长度上限(显存不足时可降低)。
  • -t 8:使用的 CPU 线程数(我的i3-12100 为 4 核 8 线程 直接拉满8线程)。
  • --port 8082:自定义端口号。
参数作用建议值(8G 显存)
-ngl指定多少块专家模块在 GPU 上运行12-16
-c最大上下文 token 数4096-8192
-tCPU 线程数物理核心数 × 2
--port自定义端口号8082啥的

移除 -ngl 参数,则完全依赖 CPU 计算:(如果没装cuda,llama自动忽略 -ngl参数

注意事项

  • 该模型有128块专家。
  • 显存不足时需降低 -ngl-c 值,让其进入内存。
  • 首次加载模型时间较长,请耐心等待。
  • 监控任务管理器确认 GPU 和内存占用情况。

此图运行的12专家,70000上下文,内存也消耗的更多,非常极限了

感觉16专家 + 8192上下文适合短对话
         12专家 + 几万的上下文适合长文本对话
         14专家的我还没试过,感觉会更适合8G显卡,能支持不错的上下文

上下文溢出,llama会自动降到只剩256,大家尽管挑战自己的极限

访问 Web 界面

问下它一些问题,例如:用python写一个冒泡排序

可以看出它这次对话使用了1008 token,花了1分8秒时间输出,速度为14.7 t/s

下图是继续对话,可以看到输入框上有个Context:1180/8192 (14%)  这是我给他设置的 8192上下文 上限,之前的对话以及正在输出的都会占用这上限,尽量让其别超出!!

左上角还有个 MCP Servers,用了配置模型的参数等等

配置temperature等等

还能配置system message等等