本地部署 AI 模型完全指南：用 Ollama 在你的电脑上跑大模型

AIEII

每次用 ChatGPT 或 Claude，你的对话内容都发送到了别人的服务器上。

对大多数人来说这不是问题。但如果你处理的是公司内部数据、客户隐私信息、或者就是单纯不想让别人看到你的提问内容，本地部署 AI 模型是唯一的解决方案。

好消息是，2026 年的开源模型已经强到可以处理大部分日常任务了。而 Ollama 让本地部署变得和安装一个 App 一样简单。

为什么选 Ollama

本地跑模型有很多方案：llama.cpp、vLLM、text-generation-webui、LM Studio… Ollama 之所以成为最受欢迎的方案，原因很简单：

一行命令安装
一行命令运行模型
自动管理模型下载和版本
提供和 OpenAI 兼容的 API
跨平台（macOS、Linux、Windows）

它就像模型界的 Docker：你不需要关心底层细节，告诉它你要什么模型，它帮你搞定一切。

安装 Ollama

macOS

# 方式一：Homebrew（推荐）
brew install ollama

# 方式二：官网下载
# 访问 ollama.com 下载 .dmg 安装包

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

从 ollama.com 下载安装包，双击安装。

安装完成后，打开终端验证：

ollama --version
# 应该显示版本号，比如 ollama version 0.6.x

第一个模型：5 分钟上手

下载并运行

# 下载并运行 Llama 3.3 (Meta 的开源模型，8B 参数)
ollama run llama3.3

# 等待下载完成后，直接进入对话模式
>>> 你好，请用中文介绍一下自己

就这样。没有配置文件，没有环境变量，没有依赖冲突。

常用命令

# 列出已下载的模型
ollama list

# 下载模型（不运行）
ollama pull deepseek-v3

# 运行模型
ollama run deepseek-v3

# 删除模型
ollama rm llama3.3

# 查看模型详情
ollama show deepseek-v3

模型选择指南

2026 年 3 月，Ollama 上可用的模型已经非常丰富。根据你的需求和硬件条件，选择合适的模型：

按用途选

用途	推荐模型	大小	说明
中文对话	deepseek-v3	约 16GB	中文能力最强的开源模型之一
编程辅助	qwen-coder	约 8GB	代码生成和理解能力出色
快速问答	qwen3:8b	约 5GB	轻量快速，适合日常任务
深度推理	deepseek-r1:32b	约 20GB	需要长时间思考的复杂问题
英文写作	llama3.3	约 5GB	Meta 的通用模型，英文强
多模态	llava	约 5GB	可以理解图片

按硬件选

电脑配置	推荐模型大小	示例
8GB 内存	3B-7B	qwen3:8b, llama3.3:8b
16GB 内存	7B-14B	deepseek-v3:16b, qwen-coder:14b
32GB 内存	14B-32B	deepseek-r1:32b
64GB+ 内存	32B-70B	llama3.3:70b

Apple Silicon (M1/M2/M3/M4) 的 Mac 在跑本地模型时有天然优势。统一内存架构意味着 GPU 可以直接访问所有内存，不受显存限制。一台 32GB 的 MacBook Pro 可以流畅运行 32B 参数的模型。

实际使用场景

场景 1：私密文档分析

ollama run deepseek-v3
>>> 请分析以下合同条款的潜在风险：
>>> [粘贴合同内容]

所有数据都在你的电脑上处理，不经过任何外部服务器。

场景 2：代码辅助

ollama run qwen-coder
>>> 帮我写一个 Python 函数，实现以下功能：
>>> 读取 CSV 文件，按第三列排序，输出前 10 行

场景 3：翻译和润色

ollama run deepseek-v3
>>> 请把以下中文翻译成专业的英文商务邮件：
>>> [中文内容]

通过 API 调用

Ollama 自动在本地启动一个 API 服务器（默认端口 11434），兼容 OpenAI API 格式。

Python 调用

import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "deepseek-v3",
        "messages": [
            {"role": "user", "content": "用一句话解释什么是量子计算"}
        ],
        "stream": False
    }
)

print(response.json()["message"]["content"])

用 OpenAI 的 Python SDK 调用

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Ollama 不需要真实 key
)

response = client.chat.completions.create(
    model="deepseek-v3",
    messages=[
        {"role": "user", "content": "解释一下 MCP 协议是什么"}
    ]
)

print(response.choices[0].message.content)

这意味着你现有的 OpenAI SDK 代码，只需要改两行（base_url 和 api_key），就能切换到本地模型。

性能优化技巧

1. 量化版本

如果你的内存有限，使用量化版本的模型：

# q4_0 量化版本，体积约为原始的 1/4，速度更快
ollama run deepseek-v3:q4_0

量化会稍微降低模型质量，但对于大多数任务来说几乎感觉不到差异。

2. GPU 加速

在 Mac 上，Ollama 自动使用 Metal 加速（Apple Silicon）。在 Linux/Windows 上：

# NVIDIA GPU
# Ollama 自动检测 CUDA，无需额外配置

# 确认 GPU 是否被使用
ollama ps

3. 保持模型加载

Ollama 默认在 5 分钟无活动后卸载模型。如果你频繁使用，可以修改：

# 设置模型保持加载 30 分钟
OLLAMA_KEEP_ALIVE=30m ollama serve

4. 并发请求

Ollama 支持同时处理多个请求（如果硬件允许）：

# 设置最大并发数
OLLAMA_NUM_PARALLEL=4 ollama serve

和云端模型的对比

维度	本地 (Ollama)	云端 (ChatGPT/Claude)
隐私	完全隐私	数据发送到服务器
费用	零月费	$20-30/月
速度	取决于硬件	通常更快
质量	接近前沿 (70-85%)	前沿水平 (100%)
离线	完全支持	必须联网
上下文	取决于内存	100万+ token

结论：本地模型不是要"替代"云端模型，而是"补充"。敏感任务用本地，需要最强能力时用云端。

常见问题

Q: 模型下载很慢怎么办？

Ollama 的模型托管在海外。如果下载速度慢，可以设置代理：

export HTTPS_PROXY=http://your-proxy:port
ollama pull deepseek-v3

Q: 运行时内存不够怎么办？

换更小的模型或使用量化版本。8B 模型通常只需要 6-8GB 内存。

Q: 模型回答质量不好？

本地模型的能力确实不如 GPT-5.4 或 Claude Opus。如果任务复杂度超出本地模型的能力，还是建议用云端模型。

Q: 可以同时跑多个模型吗？

可以，前提是内存够用。每个模型会占用大约等于其参数文件大小的内存。

最后

本地 AI 不再是极客的专利。Ollama 把门槛降到了最低：一行命令安装，一行命令运行。

从今天开始，你的 AI 助手可以完全跑在你自己的电脑上。不交月费，不送数据，不怕断网。

试试吧。

本文首发于 aieii.com，一个关注 AI 工具与趋势的中文内容平台。