作为研究生,我们经常需要处理大量文本数据,有时候想把一些敏感内容交给AI处理,但又担心隐私问题。去年我开始使用 Ollama 在本地部署大语言模型,体验非常不错,今天来分享下完整教程~ 🧁
📚 什么是 Ollama?
Ollama 是一个开源的大模型本地运行框架,让你可以在自己的电脑上跑各种开源大模型,比如 Llama 2、Code Llama、Mistral 等。它提供简单的命令行界面和 API 接口,特别适合:
- 隐私敏感的数据处理(不上传到云端)
- 开发调试 AI 应用
- 学习和实验大模型
- 节省 API 调用成本
💡 优势:本地运行、完全免费、无需联网、支持多平台
🚀 安装 Ollama
macOS / Linux
Linux 和 macOS 用户可以直接用官方提供的安装脚本:
curl -fsSL https://ollama.com/install.sh | sh
Windows
Windows 用户需要先安装 WSL2(Windows Subsystem for Linux),然后在 WSL 终端中运行上面的安装命令。
⚠️ 注意:建议电脑内存至少 16GB,显存 8GB 以上会更流畅
验证安装
安装完成后,终端输入:
ollama --version
如果显示版本号,说明安装成功!
📦 下载和使用模型
查看可用模型
访问 ollama.com/library 可以看到所有支持的模型。
下载模型
以最受欢迎的 llama2 为例:
ollama pull llama2
常用的中文优化模型 qwen 也不错:
ollama pull qwen
运行模型
直接对话:
ollama run llama2
退出对话输入 /bye。
💻 API 调用示例
Ollama 启动后会自动在 11434 端口提供 REST API:
Python 调用
import requests
response = requests.post("http://localhost:11434/api/generate", json={
"model": "llama2",
"prompt": "用一句话解释什么是机器学习",
"stream": False
})
print(response.json()["response"])
cURL 调用
curl http://localhost:11434/api/generate -d '{
"model": "llama2",
"prompt": "你好,请介绍一下你自己"
}'
⚙️ 常用命令一览
ollama list- 查看已下载的模型ollama ps- 查看正在运行的模型ollama show <model>- 显示模型信息ollama rm <model>- 删除模型ollama run <model>- 运行模型
🔧 进阶技巧
设置系统提示词
创建自定义模型文件 Modelfile:
FROM llama2
SYSTEM """
你是一个专业的研究助手,帮助用户进行学术写作和代码调试。
请用简洁专业的语言回答问题。
"""
然后创建并运行:
ollama create research-assistant -f Modelfile
ollama run research-assistant
GPU 加速
如果你有 NVIDIA 显卡,Ollama 会自动使用 CUDA 加速。第一次运行模型时会自动加载 GPU。
🐳 Docker 部署
喜欢用 Docker 的同学也可以这样:
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
🎯 适用场景
本地部署大模型特别适合:
- 处理隐私数据(病历、法律文档、商业机密)
- 离线环境使用
- 频繁调用但不想付 API 费用
- 开发 AI 原型应用
⚠️ 局限性
当然,本地部署也有一些限制:
- 模型参数量受限于本地硬件
- 推理速度比云端 API 慢
- 不支持多模态(图像理解等)
- 部分高级功能需要付费版
📝 总结
Ollama 是目前最简单好用的本地大模型运行工具,特别适合开发者学习和实验。如果你对 AI 有兴趣但又担心隐私或成本,不妨试试本地部署~
有问题欢迎在留言板交流! 🧁✨