DeepSeek本地部署完整使用教程：从零开始跑通大模型

AI实用指南编辑团队

为什么选择DeepSeek本地部署？

红烁AI 培训，红烁 AI 中转站为您整理：DeepSeek是由深度求索公司推出的开源大语言模型系列，凭借媲美GPT-4的推理能力和完全开放的权重，迅速成为本地部署领域最受欢迎的选择之一。相比调用云端API，本地部署有三个核心优势：

数据隐私：所有对话数据留在本机，不经过任何第三方服务器，适合处理敏感业务信息
零使用成本：一次部署，无限调用，不产生按Token计费的API费用
离线可用：断网环境下照常运行，不受服务可用性影响

本教程以目前最主流的 Ollama + DeepSeek 方案为主线，同时介绍 LM Studio 图形化方案，覆盖 Windows、macOS、Linux 三大平台。

硬件要求与模型选择

最低硬件配置

本地部署大模型对硬件有一定要求，核心瓶颈是内存（RAM）和显存（VRAM）。下表列出不同规模DeepSeek模型的推荐配置：

DeepSeek-R1 1.5B：内存 8GB 即可运行，适合入门体验，CPU推理速度可接受
DeepSeek-R1 7B：推荐 16GB 内存或 8GB 显存，日常使用的最佳平衡点
DeepSeek-R1 14B：推荐 32GB 内存或 16GB 显存，回答质量显著提升
DeepSeek-R1 32B：需要 64GB 内存或 24GB 以上显存，接近完整模型能力
DeepSeek-R1 671B（完整版）：需要多卡或专业服务器，个人用户不建议尝试

对于大多数用户，7B 或 14B 的 Q4 量化版本是性价比最高的选择——体积小、速度快，能力损失在5%以内。

方案一：使用 Ollama 部署 DeepSeek（推荐）

第一步：安装 Ollama

Ollama 是目前最简洁的本地大模型运行框架，支持一条命令完成模型下载和运行。

macOS / Linux：打开终端，执行以下命令：

curl -fsSL https://ollama.com/install.sh | sh

Windows：访问 ollama.com 下载安装包（.exe），双击安装后 Ollama 会在系统托盘常驻运行

安装完成后，在终端输入 ollama --version，看到版本号即表示安装成功。

第二步：下载并运行 DeepSeek 模型

Ollama 已内置 DeepSeek 系列模型，一条命令即可完成下载和启动：

# 运行 DeepSeek-R1 7B（推荐新手）
ollama run deepseek-r1:7b

# 运行 14B 版本（需要更多内存）
ollama run deepseek-r1:14b

# 仅下载不运行
ollama pull deepseek-r1:7b

首次运行会自动下载模型文件（7B约4.7GB），下载完成后直接进入对话界面。输入问题即可开始交互，输入 /bye 退出对话。

第三步：通过 API 调用（可选）

Ollama 启动后会在本地开放 REST API，端口默认为 11434，接口格式兼容 OpenAI，方便集成到现有项目：

curl http://localhost:11434/api/chat -d '{
  "model": "deepseek-r1:7b",
  "messages": [{"role": "user", "content": "用Python写一个快速排序"}]
}'

方案二：搭配 Open WebUI 获得完整对话体验

命令行交互对普通用户不够友好。Open WebUI 是一个开源的本地 ChatGPT 风格界面，可以无缝对接 Ollama，提供多轮对话、历史记录、模型切换等完整功能。

使用 Docker 一键部署 Open WebUI

确保已安装 Docker，然后执行：

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

启动后访问 http://localhost:3000，注册本地账号，在设置中选择已下载的 DeepSeek 模型，即可获得与 ChatGPT 几乎一致的使用体验。

方案三：LM Studio 图形化部署（零命令行）

如果你完全不想接触命令行，LM Studio 是最佳选择。它提供完整的图形界面，支持从 Hugging Face 直接搜索和下载 DeepSeek 模型。

访问 lmstudio.ai 下载对应平台安装包
安装后在搜索栏输入 deepseek，选择合适的量化版本下载
下载完成后点击 Load Model，切换到 Chat 标签页即可对话
LM Studio 同样内置本地服务器，可作为 OpenAI 兼容 API 使用

性能优化建议

优先使用 GPU 加速：NVIDIA 显卡用户确保安装了 CUDA 驱动，Ollama 会自动检测并启用 GPU 推理，速度比纯 CPU 快 5-10 倍
选择合适的量化精度：Q4_K_M 是速度与质量的最佳平衡，Q8 质量更好但体积翻倍，Q2 速度最快但质量下降明显
关闭后台程序：推理时内存占用高，关闭浏览器等占用内存的程序可有效提升速度
Apple Silicon 用户：M1/M2/M3 芯片的统一内存架构对本地推理非常友好，16GB 内存的 MacBook 运行 7B 模型流畅度极佳

常见问题 FAQ

Q：下载模型时速度很慢怎么办？

Ollama 默认从官方源下载，国内用户可能速度较慢。可以配置镜像源，或使用代理工具加速。LM Studio 支持手动导入本地 GGUF 格式模型文件，可以先通过其他工具下载好再导入。

Q：运行时提示内存不足怎么解决？

首先尝试切换到更小的模型（如从14B降到7B），或选择更低量化精度的版本（如Q4替代Q8）。Windows 用户还可以适当增加虚拟内存（页面文件）来缓解压力，但会影响推理速度。

Q：DeepSeek 本地版和 API 版能力有差距吗？

有一定差距，主要体现在两点：一是本地通常运行量化压缩版本，精度略有损失；二是完整的 DeepSeek-R1 671B 参数量远超个人硬件能承载的范围。但对于日常编程辅助、文档处理、问答等任务，14B 量化版本的表现已经相当实用。

Q：如何更新已下载的模型？

使用 Ollama 的用户执行 ollama pull deepseek-r1:7b 即可拉取最新版本，旧版本会被自动替换。

Q：可以在 DeepSeek 本地版上加载自己的文档吗？

可以。Open WebUI 内置了 RAG（检索增强生成）功能，支持上传 PDF、Word、TXT 等文档，模型会基于文档内容回答问题，非常适合构建私有知识库。

总结

DeepSeek 本地部署的门槛已经大幅降低。对于大多数用户，推荐的路径是：安装 Ollama → 下载 DeepSeek-R1 7B → 搭配 Open WebUI，整个过程不超过30分钟，即可获得一个完全私有、免费可用的本地AI助手。有图形界面需求的用户可以直接选择 LM Studio，同样简单高效。随着硬件成本持续下降和模型量化技术的进步，本地大模型部署正在成为开发者和技术用户的标配工具。

想了解更多AI工具和技巧？欢迎访问红烁AI 培训，红烁 AI 中转站，获取最新AI资讯和实用教程。