每次用 ChatGPT 或 Claude,你的对话内容都发送到了别人的服务器上。
对大多数人来说这不是问题。但如果你处理的是公司内部数据、客户隐私信息、或者就是单纯不想让别人看到你的提问内容,本地部署 AI 模型是唯一的解决方案。
好消息是,2026 年的开源模型已经强到可以处理大部分日常任务了。而 Ollama 让本地部署变得和安装一个 App 一样简单。
为什么选 Ollama
本地跑模型有很多方案:llama.cpp、vLLM、text-generation-webui、LM Studio… Ollama 之所以成为最受欢迎的方案,原因很简单:
- 一行命令安装
- 一行命令运行模型
- 自动管理模型下载和版本
- 提供和 OpenAI 兼容的 API
- 跨平台(macOS、Linux、Windows)
它就像模型界的 Docker:你不需要关心底层细节,告诉它你要什么模型,它帮你搞定一切。
安装 Ollama
macOS
# 方式一:Homebrew(推荐)
brew install ollama
# 方式二:官网下载
# 访问 ollama.com 下载 .dmg 安装包
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
从 ollama.com 下载安装包,双击安装。
安装完成后,打开终端验证:
ollama --version
# 应该显示版本号,比如 ollama version 0.6.x
第一个模型:5 分钟上手
下载并运行
# 下载并运行 Llama 3.3 (Meta 的开源模型,8B 参数)
ollama run llama3.3
# 等待下载完成后,直接进入对话模式
>>> 你好,请用中文介绍一下自己
就这样。没有配置文件,没有环境变量,没有依赖冲突。
常用命令
# 列出已下载的模型
ollama list
# 下载模型(不运行)
ollama pull deepseek-v3
# 运行模型
ollama run deepseek-v3
# 删除模型
ollama rm llama3.3
# 查看模型详情
ollama show deepseek-v3
模型选择指南
2026 年 3 月,Ollama 上可用的模型已经非常丰富。根据你的需求和硬件条件,选择合适的模型:
按用途选
| 用途 | 推荐模型 | 大小 | 说明 |
|---|---|---|---|
| 中文对话 | deepseek-v3 | 约 16GB | 中文能力最强的开源模型之一 |
| 编程辅助 | qwen-coder | 约 8GB | 代码生成和理解能力出色 |
| 快速问答 | qwen3:8b | 约 5GB | 轻量快速,适合日常任务 |
| 深度推理 | deepseek-r1:32b | 约 20GB | 需要长时间思考的复杂问题 |
| 英文写作 | llama3.3 | 约 5GB | Meta 的通用模型,英文强 |
| 多模态 | llava | 约 5GB | 可以理解图片 |
按硬件选
| 电脑配置 | 推荐模型大小 | 示例 |
|---|---|---|
| 8GB 内存 | 3B-7B | qwen3:8b, llama3.3:8b |
| 16GB 内存 | 7B-14B | deepseek-v3:16b, qwen-coder:14b |
| 32GB 内存 | 14B-32B | deepseek-r1:32b |
| 64GB+ 内存 | 32B-70B | llama3.3:70b |
Apple Silicon (M1/M2/M3/M4) 的 Mac 在跑本地模型时有天然优势。统一内存架构意味着 GPU 可以直接访问所有内存,不受显存限制。一台 32GB 的 MacBook Pro 可以流畅运行 32B 参数的模型。
实际使用场景
场景 1:私密文档分析
ollama run deepseek-v3
>>> 请分析以下合同条款的潜在风险:
>>> [粘贴合同内容]
所有数据都在你的电脑上处理,不经过任何外部服务器。
场景 2:代码辅助
ollama run qwen-coder
>>> 帮我写一个 Python 函数,实现以下功能:
>>> 读取 CSV 文件,按第三列排序,输出前 10 行
场景 3:翻译和润色
ollama run deepseek-v3
>>> 请把以下中文翻译成专业的英文商务邮件:
>>> [中文内容]
通过 API 调用
Ollama 自动在本地启动一个 API 服务器(默认端口 11434),兼容 OpenAI API 格式。
Python 调用
import requests
response = requests.post(
"http://localhost:11434/api/chat",
json={
"model": "deepseek-v3",
"messages": [
{"role": "user", "content": "用一句话解释什么是量子计算"}
],
"stream": False
}
)
print(response.json()["message"]["content"])
用 OpenAI 的 Python SDK 调用
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # Ollama 不需要真实 key
)
response = client.chat.completions.create(
model="deepseek-v3",
messages=[
{"role": "user", "content": "解释一下 MCP 协议是什么"}
]
)
print(response.choices[0].message.content)
这意味着你现有的 OpenAI SDK 代码,只需要改两行(base_url 和 api_key),就能切换到本地模型。
性能优化技巧
1. 量化版本
如果你的内存有限,使用量化版本的模型:
# q4_0 量化版本,体积约为原始的 1/4,速度更快
ollama run deepseek-v3:q4_0
量化会稍微降低模型质量,但对于大多数任务来说几乎感觉不到差异。
2. GPU 加速
在 Mac 上,Ollama 自动使用 Metal 加速(Apple Silicon)。在 Linux/Windows 上:
# NVIDIA GPU
# Ollama 自动检测 CUDA,无需额外配置
# 确认 GPU 是否被使用
ollama ps
3. 保持模型加载
Ollama 默认在 5 分钟无活动后卸载模型。如果你频繁使用,可以修改:
# 设置模型保持加载 30 分钟
OLLAMA_KEEP_ALIVE=30m ollama serve
4. 并发请求
Ollama 支持同时处理多个请求(如果硬件允许):
# 设置最大并发数
OLLAMA_NUM_PARALLEL=4 ollama serve
和云端模型的对比
| 维度 | 本地 (Ollama) | 云端 (ChatGPT/Claude) |
|---|---|---|
| 隐私 | 完全隐私 | 数据发送到服务器 |
| 费用 | 零月费 | $20-30/月 |
| 速度 | 取决于硬件 | 通常更快 |
| 质量 | 接近前沿 (70-85%) | 前沿水平 (100%) |
| 离线 | 完全支持 | 必须联网 |
| 上下文 | 取决于内存 | 100万+ token |
结论:本地模型不是要"替代"云端模型,而是"补充"。敏感任务用本地,需要最强能力时用云端。
常见问题
Q: 模型下载很慢怎么办?
Ollama 的模型托管在海外。如果下载速度慢,可以设置代理:
export HTTPS_PROXY=http://your-proxy:port
ollama pull deepseek-v3
Q: 运行时内存不够怎么办?
换更小的模型或使用量化版本。8B 模型通常只需要 6-8GB 内存。
Q: 模型回答质量不好?
本地模型的能力确实不如 GPT-5.4 或 Claude Opus。如果任务复杂度超出本地模型的能力,还是建议用云端模型。
Q: 可以同时跑多个模型吗?
可以,前提是内存够用。每个模型会占用大约等于其参数文件大小的内存。
最后
本地 AI 不再是极客的专利。Ollama 把门槛降到了最低:一行命令安装,一行命令运行。
从今天开始,你的 AI 助手可以完全跑在你自己的电脑上。不交月费,不送数据,不怕断网。
试试吧。
本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。