Newsroom
AIEII

本地部署 AI 模型完全指南:用 Ollama 在你的电脑上跑大模型

从安装 Ollama 到运行 DeepSeek、Qwen、Llama 等开源模型,手把手教你在本地跑 AI。零月费、完全隐私、离线可用。附模型选择指南和性能优化技巧。

2026年03月23日

每次用 ChatGPT 或 Claude,你的对话内容都发送到了别人的服务器上。

对大多数人来说这不是问题。但如果你处理的是公司内部数据、客户隐私信息、或者就是单纯不想让别人看到你的提问内容,本地部署 AI 模型是唯一的解决方案。

好消息是,2026 年的开源模型已经强到可以处理大部分日常任务了。而 Ollama 让本地部署变得和安装一个 App 一样简单。


为什么选 Ollama

本地跑模型有很多方案:llama.cpp、vLLM、text-generation-webui、LM Studio… Ollama 之所以成为最受欢迎的方案,原因很简单:

  1. 一行命令安装
  2. 一行命令运行模型
  3. 自动管理模型下载和版本
  4. 提供和 OpenAI 兼容的 API
  5. 跨平台(macOS、Linux、Windows)

它就像模型界的 Docker:你不需要关心底层细节,告诉它你要什么模型,它帮你搞定一切。


安装 Ollama

macOS

# 方式一:Homebrew(推荐)
brew install ollama

# 方式二:官网下载
# 访问 ollama.com 下载 .dmg 安装包

Linux

curl -fsSL https://ollama.com/install.sh | sh

Windows

ollama.com 下载安装包,双击安装。

安装完成后,打开终端验证:

ollama --version
# 应该显示版本号,比如 ollama version 0.6.x

第一个模型:5 分钟上手

下载并运行

# 下载并运行 Llama 3.3 (Meta 的开源模型,8B 参数)
ollama run llama3.3

# 等待下载完成后,直接进入对话模式
>>> 你好,请用中文介绍一下自己

就这样。没有配置文件,没有环境变量,没有依赖冲突。

常用命令

# 列出已下载的模型
ollama list

# 下载模型(不运行)
ollama pull deepseek-v3

# 运行模型
ollama run deepseek-v3

# 删除模型
ollama rm llama3.3

# 查看模型详情
ollama show deepseek-v3

模型选择指南

2026 年 3 月,Ollama 上可用的模型已经非常丰富。根据你的需求和硬件条件,选择合适的模型:

按用途选

用途推荐模型大小说明
中文对话deepseek-v3约 16GB中文能力最强的开源模型之一
编程辅助qwen-coder约 8GB代码生成和理解能力出色
快速问答qwen3:8b约 5GB轻量快速,适合日常任务
深度推理deepseek-r1:32b约 20GB需要长时间思考的复杂问题
英文写作llama3.3约 5GBMeta 的通用模型,英文强
多模态llava约 5GB可以理解图片

按硬件选

电脑配置推荐模型大小示例
8GB 内存3B-7Bqwen3:8b, llama3.3:8b
16GB 内存7B-14Bdeepseek-v3:16b, qwen-coder:14b
32GB 内存14B-32Bdeepseek-r1:32b
64GB+ 内存32B-70Bllama3.3:70b

Apple Silicon (M1/M2/M3/M4) 的 Mac 在跑本地模型时有天然优势。统一内存架构意味着 GPU 可以直接访问所有内存,不受显存限制。一台 32GB 的 MacBook Pro 可以流畅运行 32B 参数的模型。


实际使用场景

场景 1:私密文档分析

ollama run deepseek-v3
>>> 请分析以下合同条款的潜在风险:
>>> [粘贴合同内容]

所有数据都在你的电脑上处理,不经过任何外部服务器。

场景 2:代码辅助

ollama run qwen-coder
>>> 帮我写一个 Python 函数,实现以下功能:
>>> 读取 CSV 文件,按第三列排序,输出前 10

场景 3:翻译和润色

ollama run deepseek-v3
>>> 请把以下中文翻译成专业的英文商务邮件:
>>> [中文内容]

通过 API 调用

Ollama 自动在本地启动一个 API 服务器(默认端口 11434),兼容 OpenAI API 格式。

Python 调用

import requests

response = requests.post(
    "http://localhost:11434/api/chat",
    json={
        "model": "deepseek-v3",
        "messages": [
            {"role": "user", "content": "用一句话解释什么是量子计算"}
        ],
        "stream": False
    }
)

print(response.json()["message"]["content"])

用 OpenAI 的 Python SDK 调用

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # Ollama 不需要真实 key
)

response = client.chat.completions.create(
    model="deepseek-v3",
    messages=[
        {"role": "user", "content": "解释一下 MCP 协议是什么"}
    ]
)

print(response.choices[0].message.content)

这意味着你现有的 OpenAI SDK 代码,只需要改两行(base_url 和 api_key),就能切换到本地模型。


性能优化技巧

1. 量化版本

如果你的内存有限,使用量化版本的模型:

# q4_0 量化版本,体积约为原始的 1/4,速度更快
ollama run deepseek-v3:q4_0

量化会稍微降低模型质量,但对于大多数任务来说几乎感觉不到差异。

2. GPU 加速

在 Mac 上,Ollama 自动使用 Metal 加速(Apple Silicon)。在 Linux/Windows 上:

# NVIDIA GPU
# Ollama 自动检测 CUDA,无需额外配置

# 确认 GPU 是否被使用
ollama ps

3. 保持模型加载

Ollama 默认在 5 分钟无活动后卸载模型。如果你频繁使用,可以修改:

# 设置模型保持加载 30 分钟
OLLAMA_KEEP_ALIVE=30m ollama serve

4. 并发请求

Ollama 支持同时处理多个请求(如果硬件允许):

# 设置最大并发数
OLLAMA_NUM_PARALLEL=4 ollama serve

和云端模型的对比

维度本地 (Ollama)云端 (ChatGPT/Claude)
隐私完全隐私数据发送到服务器
费用零月费$20-30/月
速度取决于硬件通常更快
质量接近前沿 (70-85%)前沿水平 (100%)
离线完全支持必须联网
上下文取决于内存100万+ token

结论:本地模型不是要"替代"云端模型,而是"补充"。敏感任务用本地,需要最强能力时用云端。


常见问题

Q: 模型下载很慢怎么办?

Ollama 的模型托管在海外。如果下载速度慢,可以设置代理:

export HTTPS_PROXY=http://your-proxy:port
ollama pull deepseek-v3

Q: 运行时内存不够怎么办?

换更小的模型或使用量化版本。8B 模型通常只需要 6-8GB 内存。

Q: 模型回答质量不好?

本地模型的能力确实不如 GPT-5.4 或 Claude Opus。如果任务复杂度超出本地模型的能力,还是建议用云端模型。

Q: 可以同时跑多个模型吗?

可以,前提是内存够用。每个模型会占用大约等于其参数文件大小的内存。


最后

本地 AI 不再是极客的专利。Ollama 把门槛降到了最低:一行命令安装,一行命令运行。

从今天开始,你的 AI 助手可以完全跑在你自己的电脑上。不交月费,不送数据,不怕断网。

试试吧。


本文首发于 aieii.com,一个关注 AI 工具与趋势的中文内容平台。

广告合作联系
立即联系 →
加入会员申请
了解详情 →
← 用 Zapier + AI 打造零代码自动化工作流:从邮件分 … 感谢每一位读者:AIEII 订阅用户里程碑 →
💬 Comments
4 min read