本地部署大模型：Ollama + 模型管理完全指南

作为研究生，我们经常需要处理大量文本数据，有时候想把一些敏感内容交给AI处理，但又担心隐私问题。去年我开始使用 Ollama 在本地部署大语言模型，体验非常不错，今天来分享下完整教程～ 🧁

📚 什么是 Ollama？

Ollama 是一个开源的大模型本地运行框架，让你可以在自己的电脑上跑各种开源大模型，比如 Llama 2、Code Llama、Mistral 等。它提供简单的命令行界面和 API 接口，特别适合：

隐私敏感的数据处理（不上传到云端）
开发调试 AI 应用
学习和实验大模型
节省 API 调用成本

💡 优势：本地运行、完全免费、无需联网、支持多平台

🚀 安装 Ollama

macOS / Linux

Linux 和 macOS 用户可以直接用官方提供的安装脚本：

curl -fsSL https://ollama.com/install.sh | sh

Windows

Windows 用户需要先安装 WSL2（Windows Subsystem for Linux），然后在 WSL 终端中运行上面的安装命令。

⚠️ 注意：建议电脑内存至少 16GB，显存 8GB 以上会更流畅

验证安装

安装完成后，终端输入：

ollama --version

如果显示版本号，说明安装成功！

📦 下载和使用模型

查看可用模型

访问 ollama.com/library 可以看到所有支持的模型。

下载模型

以最受欢迎的 llama2 为例：

ollama pull llama2

常用的中文优化模型 qwen 也不错：

ollama pull qwen

运行模型

直接对话：

ollama run llama2

退出对话输入 /bye。

💻 API 调用示例

Ollama 启动后会自动在 11434 端口提供 REST API：

Python 调用

import requests

response = requests.post("http://localhost:11434/api/generate", json={
    "model": "llama2",
    "prompt": "用一句话解释什么是机器学习",
    "stream": False
})
print(response.json()["response"])

cURL 调用

curl http://localhost:11434/api/generate -d '{
  "model": "llama2",
  "prompt": "你好，请介绍一下你自己"
}'

⚙️ 常用命令一览

ollama list - 查看已下载的模型
ollama ps - 查看正在运行的模型
ollama show <model> - 显示模型信息
ollama rm <model> - 删除模型
ollama run <model> - 运行模型

🔧 进阶技巧

设置系统提示词

创建自定义模型文件 Modelfile：

FROM llama2
SYSTEM """
你是一个专业的研究助手，帮助用户进行学术写作和代码调试。
请用简洁专业的语言回答问题。
"""

然后创建并运行：

ollama create research-assistant -f Modelfile
ollama run research-assistant

GPU 加速

如果你有 NVIDIA 显卡，Ollama 会自动使用 CUDA 加速。第一次运行模型时会自动加载 GPU。

🐳 Docker 部署

喜欢用 Docker 的同学也可以这样：

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

🎯 适用场景

本地部署大模型特别适合：

处理隐私数据（病历、法律文档、商业机密）
离线环境使用
频繁调用但不想付 API 费用
开发 AI 原型应用

⚠️ 局限性

当然，本地部署也有一些限制：

模型参数量受限于本地硬件
推理速度比云端 API 慢
不支持多模态（图像理解等）
部分高级功能需要付费版

📝 总结

Ollama 是目前最简单好用的本地大模型运行工具，特别适合开发者学习和实验。如果你对 AI 有兴趣但又担心隐私或成本，不妨试试本地部署～

有问题欢迎在留言板交流！ 🧁✨