没有GPU也能本地部署DeepSeek？2025完整教程

AI实用指南编辑团队

没有GPU，真的能本地部署DeepSeek吗？

红烁AI 培训，红烁 AI 中转站为您整理：答案是肯定的。GPU加速推理速度，但并不是运行大语言模型的必要条件。CPU同样可以完成推理计算，代价是速度慢一些——通常每秒生成3到15个token，对于日常使用完全够用。

DeepSeek系列模型之所以适合CPU部署，核心原因有两个：一是官方提供了多种参数规模的版本，最小的1.5B模型对硬件要求极低；二是借助GGUF量化格式，模型体积可以压缩到原来的1/4甚至更小，普通笔记本电脑的内存完全可以承载。

本文以Ollama + llama.cpp方案为主线，这是目前社区验证最成熟、上手最快的无GPU本地部署路径。

部署前的硬件与环境要求

最低配置参考

内存：8GB RAM（推荐16GB，运行7B量化模型更流畅）
存储：至少10GB可用磁盘空间
CPU：支持AVX2指令集的x86处理器，或Apple Silicon芯片（M1/M2/M3）
操作系统：Windows 10/11、macOS 12+、Ubuntu 20.04+

模型规模与内存对照表

DeepSeek-R1 1.5B（Q4量化）：约1.1GB，4GB内存可运行
DeepSeek-R1 7B（Q4量化）：约4.7GB，8GB内存可运行
DeepSeek-R1 8B（Q4量化）：约5.3GB，12GB内存推荐
DeepSeek-R1 14B（Q4量化）：约9.0GB，16GB内存推荐

内存不足16GB的机器，优先选择1.5B或7B版本，效果与资源消耗之间的平衡最好。

方案一：使用Ollama部署（推荐新手）

Ollama是目前最简单的本地大模型管理工具，一条命令即可完成模型下载和运行，内置CPU推理支持，无需任何GPU配置。

第一步：安装Ollama

访问 https://ollama.com 下载对应系统的安装包。Windows用户直接运行exe安装程序；macOS用户拖入Applications文件夹；Linux用户执行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

安装完成后，在终端输入 ollama --version 验证安装成功。

第二步：拉取DeepSeek模型

打开终端，根据你的内存大小选择对应版本：

# 8GB内存推荐
ollama pull deepseek-r1:7b

# 4GB内存使用
ollama pull deepseek-r1:1.5b

# 16GB内存可尝试
ollama pull deepseek-r1:14b

模型文件会自动下载到本地，国内网络建议挂代理或使用镜像源，下载速度会快很多。

第三步：启动对话

ollama run deepseek-r1:7b

看到 >>> 提示符后，直接输入问题即可开始对话。首次推理会有几秒钟的模型加载时间，之后响应会逐渐稳定。

第四步（可选）：接入Web界面

Ollama默认提供REST API，端口为11434。配合Open WebUI可以获得类似ChatGPT的聊天界面：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

浏览器访问 http://localhost:3000 即可使用图形界面。

方案二：使用llama.cpp手动部署（进阶控制）

如果你需要更精细地控制量化参数、线程数和内存映射，llama.cpp是更灵活的选择。

下载预编译版本

前往 https://github.com/ggerganov/llama.cpp/releases 下载对应系统的预编译二进制包，无需自行编译。

获取GGUF格式模型

从Hugging Face搜索 deepseek-r1 GGUF，推荐下载bartowski或lmstudio-community发布的量化版本，Q4_K_M是精度与体积的最佳平衡点。

运行推理

./llama-cli \
  -m ./deepseek-r1-7b-q4_k_m.gguf \
  -n 512 \
  --threads 8 \
  -p "你好，请介绍一下你自己"

--threads 参数设置为CPU物理核心数，可以显著提升推理速度。

性能优化：让CPU推理更快

关闭后台程序：推理期间关闭浏览器、视频软件等占用内存的应用，给模型留出更多可用内存。
调整线程数：Ollama可通过环境变量 OLLAMA_NUM_THREADS 指定线程数，设为物理核心数而非逻辑核心数效果更好。
使用更低量化精度：Q2_K或Q3_K_S版本体积更小、速度更快，但回答质量会有轻微下降，适合对速度要求高的场景。
Apple Silicon优势：M系列芯片的统一内存架构让CPU和GPU共享内存，即使不开启GPU加速，推理速度也远超同配置的x86机器。
开启内存映射：llama.cpp默认启用mmap，模型文件不会完全加载进内存，对低内存设备友好。

常见问题 FAQ

Q：推理速度太慢，每秒只有1-2个token，怎么办？

首先检查线程数配置是否正确，其次考虑换用更小的模型（1.5B或量化更激进的版本）。如果是Windows系统，确认没有开启Windows Defender实时扫描对模型文件的监控，这会严重拖慢IO速度。

Q：运行时提示内存不足（OOM），如何解决？

切换到更小的模型或更低精度的量化版本。也可以在llama.cpp中设置 --n-gpu-layers 0 强制全CPU推理，避免系统尝试调用集成显卡导致的内存分配冲突。

Q：模型下载太慢，有没有国内镜像？

可以使用HuggingFace镜像站 hf-mirror.com，将下载链接中的 huggingface.co 替换为 hf-mirror.com 即可。Ollama模型也可以通过设置 OLLAMA_HOST 环境变量指向国内代理节点。

Q：DeepSeek-R1和DeepSeek-V3有什么区别，本地部署选哪个？

R1是推理增强版本，擅长数学、逻辑和代码任务，思考过程更透明；V3是通用对话版本，响应速度更快。CPU部署推荐R1系列，因为其蒸馏版本（1.5B/7B）在小参数量下仍保持较强的推理能力。

Q：本地部署的DeepSeek和API版本效果一样吗？

不完全一样。API调用的是完整的671B满血版模型，本地CPU部署通常是7B或14B的蒸馏版本，参数量差距很大。但对于日常编程辅助、文档总结、问答等任务，7B量化版本的表现已经相当实用。

总结

没有GPU本地部署DeepSeek完全可行，核心路径是：选择合适的蒸馏量化版本 + 使用Ollama或llama.cpp作为推理引擎。8GB内存的普通电脑运行7B量化模型，日常使用体验流畅，数据完全留在本地，不依赖任何云端服务。

对于新手，直接用Ollama三步走：安装→pull模型→run，10分钟内就能跑起来。对于有进阶需求的用户，llama.cpp提供了更细粒度的参数控制空间。Apple Silicon用户是最大赢家，M系列芯片的统一内存架构让CPU推理速度接近入门级GPU的水平。

本地大模型的门槛正在快速降低，现在是入手的好时机。

想了解更多AI工具和技巧？欢迎访问红烁AI 培训，红烁 AI 中转站，获取最新AI资讯和实用教程。