Ollama + Claude Code 接入本地大模型，零成本API让AI Agent 帮你干活！

五月 27, 2026

🚀 免费！Ollama + Claude Code 接入本地大模型，AI Agent 全自动干活！

零成本 · 零依赖云端 · 代码不离本地
从环境搭建到 AI Agent 自动化实战，一篇搞定

一、为什么要把 AI 跑在本地？

你是不是早就受够了用 GPT、Claude 云服务时的两大痛点：要么担心核心代码泄露，要么看着 API 账单越滚越高？
2026 年初，Ollama v0.14.0 的一次更新彻底改变了游戏规则——它主动实现了对 Anthropic Messages API 的兼容。这意味着什么？意味着 Claude Code 终于能直接对接本地 Ollama 模型，不用再耗费一分钱 API 费，代码全程留在自己电脑里。
本文将手把手带你从零搭建一套"零成本、高隐私"的 AI Agent 编码方案，让你的本地大模型真正"全自动干活"。
💡 核心价值
代码全程不离开本地，零 API 成本，无调用次数限制，支持离线使用。对接 NDA 合同、GDPR 合规的项目也不怕。

二、核心原理：Ollama + Claude Code 如何协同工作？

在正式动手之前，先理解这套方案的工作原理，这样后面配置时才能心中有数。

2.1 整体架构

这套方案的核心思路很简单：
Claude Code：Anthropic 出品的命令行 AI Agent 工具，负责理解指令、规划任务、调用工具
Ollama：本地大模型运行框架，一条命令即可拉取并运行主流开源模型
桥梁：Ollama v0.14.0+ 内置了对 Anthropic Messages API 的兼容层，让 Claude Code "以为"自己在和 Claude 云端通信
简单来说，就是把 Claude Code 的"大脑"从云端 Claude 模型换成了本地跑的开源模型。Claude Code 本身的 Agent 工具链、Prompt 规划、Tool 调用逻辑完整保留，只是模型后端发生了替换。

2.2 关键技术节点

Ollama v0.14.0+ 已支持 POST /v1/messages 接口，兼容 Anthropic Messages API 结构
Claude Code 通过环境变量 ANTHROPIC_BASE_URL 指定自定义 API 地址
ANTHROPIC_API_KEY 可填任意非空字符串，本地不会校验
对用户完全透明，无感知后端模型变化
📝 补充说明
这不是 Anthropic 官方做的，而是 Ollama 社区主动实现的兼容。Anthropic 官方的态度是——既不认可，也不阻止。

三、环境准备与安装

3.1 硬件要求

本地跑大模型，硬件是基础。不同配置适配不同需求：
硬件类型核心配置适配模型参考价格
桌面独显 (24GB) RTX 4090 / RX 7900 XTX 全量模型 6500-13000元
笔记本 (128GB) 64GB 共享显存全量模型 20000-22000元
笔记本 (64GB) 32GB 共享显存中小模型 14500-18000元
迷你主机 (96GB) 64GB 共享显存全量模型 10500元
⚠️ 关键提醒
统一内存架构的笔记本，任务管理器显示内存占满 80%-100% 是正常的，这是 KV 缓存预分配，不是真的"用完了"，别慌！

硬件类型	核心配置	适配模型	参考价格
桌面独显 (24GB)	RTX 4090 / RX 7900 XTX	全量模型	6500-13000元
笔记本 (128GB)	64GB 共享显存	全量模型	20000-22000元
笔记本 (64GB)	32GB 共享显存	中小模型	14500-18000元
迷你主机 (96GB)	64GB 共享显存	全量模型	10500元

3.2 软件依赖

操作系统：Windows 11 (22H2+)、macOS 或 Linux
Node.js 18+（Claude Code 运行依赖）
Git（版本管理）
推荐使用 Windows Terminal 或 iTerm2

3.3 安装 Ollama

Windows 系统

# 下载安装包
Invoke-WebRequest -Uri https://ollama.com/download/OllamaSetup.exe -OutFile OllamaSetup.exe

# 运行安装
.\OllamaSetup.exe

# 验证安装
ollama --version

# 启动 Ollama 服务
ollama serve

macOS / Linux

# 一键安装
curl -fsSL https://ollama.com/install.sh | sh

# 验证
ollama --version

# 确认服务已启动
curl http://localhost:11434

安装完成后，Ollama 会在 http://localhost:11434 运行。建议使用 v0.14.0 及以上版本，以确保 Anthropic Messages API 兼容性。

3.4 安装 Claude Code

# 方法 1：WinGet 安装（推荐，Windows）
winget install Anthropic.Claude

# 方法 2：NPM 全局安装（跨平台）
npm install -g @anthropic-ai/claude-code

# 验证安装
claude --version

四、模型选择与部署

4.1 推荐模型

建议优先选择 Coder 类模型，在 Claude Code 场景下表现更稳定：
模型响应速度质量评分显存占用最佳场景
GPT-OSS 20B 30-45 秒 8.5/10 ~25GB 通用编码、代码重构
QWEN3-Coder 15-30 秒 8.5-9/10 ~22GB 快速迭代、代码补全
GLM-4.7-Flash 3-7 分钟 9.5/10 ~57GB 复杂重构、架构决策

模型	响应速度	质量评分	显存占用	最佳场景
GPT-OSS 20B	30-45 秒	8.5/10	~25GB	通用编码、代码重构
QWEN3-Coder	15-30 秒	8.5-9/10	~22GB	快速迭代、代码补全
GLM-4.7-Flash	3-7 分钟	9.5/10	~57GB	复杂重构、架构决策

4.2 拉取模型

# 日常主力模型
ollama pull qwen3-coder

# 开源编码模型
ollama pull gpt-oss:20b

# 高质量模型（需 Ollama 0.14.3+）
ollama pull glm-4.7:flash

# 查看已下载的模型
ollama list

4.3 本地测试模型

# 启动模型进行交互测试
ollama run qwen3-coder

# 输入一个简单问题测试响应
> 请用 Python 写一个快速排序算法

确认模型可以正常响应后，再进入下一步配置 Claude Code 对接。

五、配置 Claude Code 对接 Ollama

5.1 方式一：环境变量（临时生效）

Windows PowerShell

$env:ANTHROPIC_BASE_URL = "http://localhost:11434"
$env:ANTHROPIC_AUTH_TOKEN = "ollama"
$env:ANTHROPIC_API_KEY = "ollama"

# 验证配置
echo $env:ANTHROPIC_BASE_URL

macOS / Linux (zsh / bash)

export ANTHROPIC_BASE_URL="http://localhost:11434"
export ANTHROPIC_API_KEY="ollama"

# 写入配置文件实现永久生效
echo 'export ANTHROPIC_BASE_URL="http://localhost:11434"' >> ~/.zshrc
echo 'export ANTHROPIC_API_KEY="ollama"' >> ~/.zshrc
source ~/.zshrc

5.2 方式二：配置文件（永久生效，推荐）

创建或编辑配置文件：

# Windows 路径
C:\Users\<你的用户名>\.claude\settings.json

# macOS / Linux 路径
~/.claude/settings.json

写入以下内容：

{
  "api": {
    "baseURL": "http://localhost:11434",
    "authToken": "ollama"
  },
  "model": "qwen3-coder"
}

💡 说明
model 字段可根据需要切换，如 gpt-oss:20b、glm-4.7:flash 等。

5.3 启动并测试

# 启动 Claude Code，指定模型
claude --model qwen3-coder

# 测试指令：让它写一个简单的 Express.js 服务
> Create a simple Express.js server with a /hello endpoint

# 断网测试（验证是否真正走本地模型）
> Write a Python function to calculate Fibonacci numbers

如果断网后仍能正常输出，说明已完全本地化，配置成功！

六、AI Agent 全自动干活实战

配置完成后，Claude Code 就变成了一个完全本地化的 AI Agent。下面展示几个典型的自动化场景。

6.1 场景一：自动创建项目脚手架

# 在空目录中启动 Claude Code
claude --model qwen3-coder

# 输入指令
> 创建一个 React + TypeScript 项目，包含登录页面、用户管理和仪表盘，
  使用 Tailwind CSS 做样式，并配置 ESLint 和 Prettier

Claude Code 会自动：规划任务→创建目录结构→生成配置文件→编写组件代码→安装依赖。整个过程无需人工干预。

6.2 场景二：自动代码审查

# 对指定文件进行全面审查
> 对 src/api/user.ts 进行全面代码审查，
  检查安全漏洞、性能问题和代码质量，
  给出带代码示例的修复建议

6.3 场景三：自动 Bug 修复

# 让 AI 自动定位和修复问题
> 运行 npm test ，分析失败的测试用例，
  找到根因并修复所有错误

6.4 场景四：自定义技能（进阶）

可以通过创建自定义技能文件，让 AI Agent 更适配你的工作流：

# 保存为 .claude/skills/code-review/SKILL.md
---
name: code-review
description: 全面审查代码，含安全、性能检查
user-invocable: true
---

# 代码审查规则
1. 安全漏洞：SQL注入、XSS、认证问题
2. 性能问题：N+1查询、无效循环、内存泄漏
3. 代码质量：命名规范、函数复杂度、错误处理

# 输出要求
- 标注问题优先级 (Critical/High/Medium/Low)
- 指明行号
- 给出带代码示例的修复建议

使用时输入 /code-review path/to/file.js 就能自动审查，效率翻倍。

七、优缺点分析：本地部署到底值不值？

7.1 核心优势

隐私拉满：代码全程不离开本地，对接 NDA 合同、GDPR 合规的项目也不怕
零成本使用：对比云服务每年省 5600+ 元（Claude Pro 年付 4700 元 + 超额 API 费）
无限制：没有调用次数、速率限制，想怎么用就怎么用
离线可用：出差、坐飞机没网也能写代码

7.2 必须接受的短板

硬件门槛高：低配电脑跑不动高质量模型，前期投入比云服务高
速度有取舍：大参数模型响应要几分钟，急活等不及
功能有差距：云版 Claude 的最新功能（多模态、Opus 模型），本地暂时跟不上
模型质量：本地开源模型整体质量与 Claude Sonnet 等顶级云端模型仍有差距

7.3 适合什么人？

接外包、做咨询的开发者：客户代码不能外传，云服务根本用不了
对数据主权敏感的企业开发者：要符合合规要求，代码不能出内网
高频次使用 AI 编码的人：云服务的 API 超额费会越积越多
经常离线工作的人：没网也得干活

八、进阶玩法与总结

8.1 混合使用策略

不用死磕"全本地"或"全云端"，按场景切换才最香：
使用场景推荐方案说明
80% 日常工作本地 GPT-OSS / QWEN3-Coder 快且够用
复杂任务本地 GLM-4.7-Flash 慢但质量高
移动办公云版 Claude 应急、分享对话更方便

使用场景	推荐方案	说明
80% 日常工作	本地 GPT-OSS / QWEN3-Coder	快且够用
复杂任务	本地 GLM-4.7-Flash	慢但质量高
移动办公	云版 Claude	应急、分享对话更方便

8.2 常见问题排查

问题现象可能原因解决方案
Claude Code 报连接错误 Ollama 服务未启动执行 `ollama serve`
响应极慢或卡死模型大于显存容量换小参数模型
输出内容乱码字体配置问题检查终端编码
断网后无法使用环境变量未生效检查配置文件

问题现象	可能原因	解决方案
Claude Code 报连接错误	Ollama 服务未启动	执行 `ollama serve`
响应极慢或卡死	模型大于显存容量	换小参数模型
输出内容乱码	字体配置问题	检查终端编码
断网后无法使用	环境变量未生效	检查配置文件

8.3 总结

本地部署 Claude Code + Ollama 的核心价值是隐私和无限制使用，而非单纯省钱。它适合有 NDA 合规、离线办公需求的开发者。
硬件优先选 24GB 以上独显桌面机（性价比高）或 128GB 笔记本（便携）
实操时按"装工具 → 拉模型 → 配对接 → 测离线"四步走
三款模型按场景切换，混合使用效率最高
这套方案不是取代云服务，而是给开发者多了一个"安全选项"——当代码是核心资产时，把控制权握在自己手里，才是最稳妥的选择。

Ollama + Claude Code 接入本地大模型，零成本API让AI Agent 帮你干活！

🚀 免费！Ollama + Claude Code 接入本地大模型，AI Agent 全自动干活！

零成本 · 零依赖云端 · 代码不离本地从环境搭建到 AI Agent 自动化实战，一篇搞定

一、为什么要把 AI 跑在本地？

二、核心原理：Ollama + Claude Code 如何协同工作？

在正式动手之前，先理解这套方案的工作原理，这样后面配置时才能心中有数。

2.1 整体架构

2.2 关键技术节点

三、环境准备与安装

3.1 硬件要求

3.2 软件依赖

操作系统：Windows 11 (22H2+)、macOS 或 LinuxNode.js 18+（Claude Code 运行依赖）Git（版本管理）推荐使用 Windows Terminal 或 iTerm2

3.3 安装 Ollama

3.4 安装 Claude Code

# 方法 1：WinGet 安装（推荐，Windows） winget install Anthropic.Claude # 方法 2：NPM 全局安装（跨平台） npm install -g @anthropic-ai/claude-code # 验证安装 claude --version

四、模型选择与部署

4.1 推荐模型

4.2 拉取模型

# 日常主力模型 ollama pull qwen3-coder # 开源编码模型 ollama pull gpt-oss:20b # 高质量模型（需 Ollama 0.14.3+） ollama pull glm-4.7:flash # 查看已下载的模型 ollama list

4.3 本地测试模型

# 启动模型进行交互测试 ollama run qwen3-coder # 输入一个简单问题测试响应 > 请用 Python 写一个快速排序算法 确认模型可以正常响应后，再进入下一步配置 Claude Code 对接。

五、配置 Claude Code 对接 Ollama

5.1 方式一：环境变量（临时生效）

5.2 方式二：配置文件（永久生效，推荐）

5.3 启动并测试

六、AI Agent 全自动干活实战

配置完成后，Claude Code 就变成了一个完全本地化的 AI Agent。下面展示几个典型的自动化场景。

6.1 场景一：自动创建项目脚手架

6.2 场景二：自动代码审查

# 对指定文件进行全面审查 > 对 src/api/user.ts 进行全面代码审查， 检查安全漏洞、性能问题和代码质量， 给出带代码示例的修复建议

6.3 场景三：自动 Bug 修复

# 让 AI 自动定位和修复问题 > 运行 npm test ，分析失败的测试用例， 找到根因并修复所有错误

6.4 场景四：自定义技能（进阶）

七、优缺点分析：本地部署到底值不值？

7.1 核心优势

7.2 必须接受的短板

7.3 适合什么人？

接外包、做咨询的开发者：客户代码不能外传，云服务根本用不了对数据主权敏感的企业开发者：要符合合规要求，代码不能出内网高频次使用 AI 编码的人：云服务的 API 超额费会越积越多经常离线工作的人：没网也得干活

八、进阶玩法与总结

8.1 混合使用策略

不用死磕"全本地"或"全云端"，按场景切换才最香：使用场景推荐方案说明80% 日常工作本地 GPT-OSS / QWEN3-Coder快且够用复杂任务本地 GLM-4.7-Flash慢但质量高移动办公云版 Claude应急、分享对话更方便

8.2 常见问题排查

问题现象可能原因解决方案Claude Code 报连接错误Ollama 服务未启动执行 ollama serve响应极慢或卡死模型大于显存容量换小参数模型输出内容乱码字体配置问题检查终端编码断网后无法使用环境变量未生效检查配置文件

8.3 总结

此博客中的热门博文

4个超好用的AI配音工具，自媒体短视频必备！免费！

如何将文案快速制作成视频，这个方法太高效了

国内如何干净下载谷歌 Chrome 浏览器，包含Windows + Mac + Linux + Android 正版离线安装包下载

零成本 · 零依赖云端 · 代码不离本地
从环境搭建到 AI Agent 自动化实战，一篇搞定

操作系统：Windows 11 (22H2+)、macOS 或 Linux
Node.js 18+（Claude Code 运行依赖）
Git（版本管理）
推荐使用 Windows Terminal 或 iTerm2

`# 方法 1：WinGet 安装（推荐，Windows） winget install Anthropic.Claude # 方法 2：NPM 全局安装（跨平台） npm install -g @anthropic-ai/claude-code # 验证安装 claude --version`

`# 日常主力模型 ollama pull qwen3-coder # 开源编码模型 ollama pull gpt-oss:20b # 高质量模型（需 Ollama 0.14.3+） ollama pull glm-4.7:flash # 查看已下载的模型 ollama list`

`# 启动模型进行交互测试 ollama run qwen3-coder # 输入一个简单问题测试响应 > 请用 Python 写一个快速排序算法`
确认模型可以正常响应后，再进入下一步配置 Claude Code 对接。

`# 对指定文件进行全面审查 > 对 src/api/user.ts 进行全面代码审查，检查安全漏洞、性能问题和代码质量，给出带代码示例的修复建议`

`# 让 AI 自动定位和修复问题 > 运行 npm test ，分析失败的测试用例，找到根因并修复所有错误`

接外包、做咨询的开发者：客户代码不能外传，云服务根本用不了
对数据主权敏感的企业开发者：要符合合规要求，代码不能出内网
高频次使用 AI 编码的人：云服务的 API 超额费会越积越多
经常离线工作的人：没网也得干活

不用死磕"全本地"或"全云端"，按场景切换才最香：
使用场景推荐方案说明
80% 日常工作本地 GPT-OSS / QWEN3-Coder 快且够用
复杂任务本地 GLM-4.7-Flash 慢但质量高
移动办公云版 Claude 应急、分享对话更方便

问题现象可能原因解决方案
Claude Code 报连接错误 Ollama 服务未启动执行 `ollama serve`
响应极慢或卡死模型大于显存容量换小参数模型
输出内容乱码字体配置问题检查终端编码
断网后无法使用环境变量未生效检查配置文件