Claude Opus 4.7:有什么新功能?与 Opus 4.6 对比
Claude Opus 4.7:有哪些新功能,与 Opus 4.6 相比如何 Anthropic 刚刚发布了 Claude Opus 4.7——他们最新、最强大的通用模型。如果你一直在使用 Opus 4.6 进行编码、研究或构建 AI 产品,这里为你梳理了所有的变化,以及这些新功能在实践中究竟意味着什么。 关键规格一览...
4/17/2026

Claude Opus 4.7:有哪些新功能,与 Opus 4.6 相比如何
Anthropic 刚刚发布了 Claude Opus 4.7——他们最新、最强大的通用模型。如果你一直在使用 Opus 4.6 进行编码、研究或构建 AI 产品,这里为你梳理了所有的变化,以及这些新功能在实践中究竟意味着什么。
关键规格一览
| 规格 | Opus 4.7 | Opus 4.6 |
|---|---|---|
| 定价 | $5 / M input, $25 / M output | $5 / M input, $25 / M output |
| 上下文窗口 | 1M tokens (约 55.5 万单词) | 200K tokens |
| 最大输出 | 128K tokens | 64K tokens |
| 知识截止日期 | 2026 年 1 月 | 2025 年 8 月 |
| 思维模式 | Adaptive Thinking | Extended Thinking |
| API 模型 ID | claude-opus-4-7 | claude-opus-4-6-20260205 |
| 可用平台 | API, Bedrock, Vertex AI, Foundry | API, Bedrock, Vertex AI |
价格不变,上下文窗口更大,输出长度翻倍,知识还更新了五个月。从纸面上看,这是一次直接的升级。下面咱们来深入了解一下底层到底有哪些改进。
1. 自主智能体编程 (Agentic Coding):核心亮点升级
这是 Opus 4.7 最亮眼的地方。Anthropic 将其描述为“在高级软件工程方面有显著改进,尤其在最困难的任务上取得了重大进展。”
具体来说,这意味着什么?三件事:
自我验证 (Self-verification)。 Opus 4.7 不仅仅是写完代码然后交给你——它会在报告完成之前,设计方法来验证自己的输出。如果你曾遇到 AI 智能体说“搞定!”,结果代码却根本无法编译,你就会明白这有多重要。
长时任务一致性 (Long-running task consistency)。 该模型能够“严谨且一致地”处理复杂的多步骤任务。以前的模型在较长的会话中容易出现连贯性问题。Opus 4.7 则能始终保持在正轨上。
严格指令遵循 (Strict instruction following)。 它会“精确地关注指令”——这意味着模型忽略你的约束或偏离主题的情况会更少。
基准测试数据
性能提升并非微不足道。在来自顶级 AI 公司的真实世界编程基准测试中,Opus 4.7 显示出两位数的改进,并解决了以前无法解决的问题:
-
CursorBench: 70% 的解决率(Opus 4.6 为 58%)——提升了 12 个百分点。Cursor 称其为“能力上的一次有意义的飞跃,尤其是在自主性和更具创造性的推理方面。”
-
Augment 的 93 项任务编程基准测试: 解决率比 Opus 4.6 高出 13%,其中包括 4 个 Opus 4.6 和 Sonnet 4.6 都无法解决的任务。同时,中位延迟更低,且能严格遵循指令。
-
Notion Agent: 比 Opus 4.6 性能高出 14%,使用的 tokens 更少,工具错误减少了三分之二。“这是第一个通过我们隐性需求测试的模型,它能在过去会让 Opus 彻底卡住的工具故障中继续执行。”
-
Rakuten-SWE-Bench: 解决的生产任务比 Opus 4.6 多 3 倍,在代码质量和测试质量方面有两位数的提升。
-
Warp Terminal Bench: 通过了之前 Claude 模型失败的任务,包括一个 Opus 4.6 无法解决的棘手并发 bug。
-
CodeRabbit 代码审查: 召回率提高了 10% 以上,能够在复杂的 PR 中发现难以察觉的 bug,同时精确率保持稳定。“在我们的测试环境中,比 GPT-5.4 xhigh 稍快一些。”
-
Genspark Super Agent: 测得的单位工具调用质量比率最高。最好的循环抵抗能力(一个在 18 个查询中有 1 个会无限循环的模型会浪费计算资源并阻塞用户),最低的方差,以及最好的优雅错误恢复能力。
这些不是综合基准测试——它们是来自发布真实产品的公司的生产工作负载。其模式是一致的:Opus 4.7 能完成更多工作,犯更少的错误,并在出问题时能更好地恢复。
2. 视觉能力:更高分辨率的图像理解
Opus 4.7 具有“大幅提升的视觉能力”,支持更高分辨率的图像。这不仅仅是能更清楚地看图片——它开启了新的实用场景:
-
Solve Intelligence 报告称“在多模态理解方面有重大改进,从读取化学结构到解释复杂的技术图表。”他们正将其用于生命科学领域的专利工作流程,包括起草、申诉、侵权检测和无效宣告图表绘制。
-
对于构建处理屏幕截图、图表或 UI 原型工具的开发者来说,更高的分辨率意味着更少的标签误读、更好的布局理解以及更准确的类 OCR 功能。
3. 创意与专业产出
Anthropic 表示,Opus 4.7 “在完成专业任务时更具品味和创造力,能生成更高质量的界面、幻灯片和文档。”
最热情的评价来自一位测试者,他称其为“世界上用于构建仪表盘和富数据界面的最佳模型。它的设计品味真的令人惊讶——它做出的选择是我真正会发布上线的。现在它是我默认的日常主力工具了。”
如果你使用 Claude 来生成 UI 组件、幻灯片或文档布局,这将是一次有意义的体验质量提升。
4. Adaptive Thinking(取代 Extended Thinking)
Opus 4.6 使用 Extended Thinking——一种模型会明确展示其推理链的模式。Opus 4.7 则切换到 Adaptive Thinking,它会根据任务的复杂性自动调整推理深度。
实际的区别是:你不再需要手动切换思维模式。模型会判断一个任务需要多少推理,并相应地分配资源。简单问题得到快速回答;复杂问题得到更深入的分析。
注意:Sonnet 4.6 仍然支持 Extended Thinking。如果你特别需要可见的推理链,Sonnet 仍然是你的选择。
5. 上下文窗口:5倍容量,全新分词器 (Tokenizer)
从 200K tokens 跃升到 1M tokens 在纸面上是巨大的。这大约是 55.5 万个单词——足以容纳整个代码库、长篇文档集或扩展的对话历史记录。
然而,有一个重要细节:Opus 4.7 使用了一个新的分词器 (tokenizer)。同样的文本会比使用 Opus 4.6 的 tokenizer 产生更多的 tokens。Anthropic 指出,1M 的窗口大约对应 55.5 万个单词,而使用旧的 tokenizer,每百万 tokens 通常对应约 75 万个单词。在实践中,一个用 Opus 4.6 花费 1000 tokens 的提示,现在用 Opus 4.7 可能会花费大约 1300 tokens。每个 token 的价格没有变,但你每次对话的有效成本大约上升了 30%。如果你是 API 的重度用户,这一点值得计入你的预算。
这在实践中意味着:
- 你的提示将消耗比以前更多的 tokens
- 1M 窗口的有效“文本容量”大约相当于旧 tokenizer 上的约 74 万 tokens
- 尽管如此,这仍然是相比 Opus 4.6 的 200K 的一次重大升级,但在成本估算时需要注意。
6. 最大输出量:翻倍至 128K
Opus 4.6 的输出上限为 64K tokens。Opus 4.7 将其翻倍至 128K。这对于以下场景很重要:
- 一次性生成长篇文档或报告
- 跨多个文件的复杂代码生成
- 之前模型不得不截断其响应的详细分析任务
对于需要模型生成大量 diff 或多文件变更的自主智能体工作流来说,128K 的输出是一项实用的改进。
7. Project Glasswing 与网络安全保障
Opus 4.7 是 Anthropic 在其 Project Glasswing 框架下发布的首个模型。上周,Anthropic 强调了 AI 模型在网络安全领域的风险和益处,并承诺在广泛发布其最强大的模型 Claude Mythos Preview 之前,会在能力较弱的模型上测试新的安全保障措施。
这对 Opus 4.7 意味着什么:
- 降低了网络安全能力: 在训练期间,Anthropic“尝试了差异化地降低”其网络安全能力,使其低于 Mythos Preview。
- 自动安全保障: 模型内置了检测功能,会阻止那些表明“被禁止或高风险网络安全用途”的请求。
- 网络安全验证计划: 从事合法工作(如漏洞研究、渗透测试、红队演练)的安全专业人员可以通过 Cyber Verification Program 申请访问权限。
这是 Anthropic 对差异化能力控制(differential capability controls)的首次真实世界测试——有意地让模型在特定领域的能力减弱,同时在其他领域进行改进。他们从 Opus 4.7 的部署中学到的经验,将影响他们未来如何(以及何时)更广泛地发布 Mythos级别的模型。
8. 可用性与集成
Opus 4.7 从发布第一天起就在所有主要平台上可用:
- Claude API — 通过
claude-opus-4-7直接访问 - Amazon Bedrock —
anthropic.claude-opus-4-7(研究预览) - Google Cloud Vertex AI —
claude-opus-4-7 - Microsoft Foundry — 新增的平台
新增 Microsoft Foundry 值得注意——这是 Claude Opus 模型首次在发布时就登陆微软的平台。
早期测试者怎么说
除了基准测试数据,来自企业测试者的定性反馈揭示了一些一致的主题:
关于可靠性:
- Hex: “这是 Hex 评估过的最强模型。当数据缺失时,它会正确报告,而不是提供看似合理但错误的 fallback,而且它能抵抗连 Opus 4.6 都会掉入的 dissonant-data traps。”
- Devin: “将 long-horizon autonomy 提升到了一个新水平。它能连贯地工作数小时,攻克难题而不是放弃。”
关于效率:
- Replit: “一个轻松的升级决定。以更低的成本获得同等质量——在分析日志和 traces、发现 bug 和提出修复方案等任务上更高效、更精确。”
- Hex: “低 effort 的 Opus 4.7 大致相当于中等 effort 的 Opus 4.6。” —— 这意味着用更少的 prompt engineering 就能获得同样高质量的输出。
关于推理:
- Harvey (法律 AI): “在 BigLaw Bench 上,高 effort 下的实质性准确率达到 90.9%,并具有更好的 reasoning calibration。它能正确区分转让条款和控制权变更条款,这项任务在历史上一直对前沿模型构成挑战。”
- Quantium: “最大的进步体现在最重要的地方:推理深度、结构化问题构建和复杂的技术工作。”
关于个性:
- Replit: “我喜欢它在技术讨论中会提出不同意见,帮助我做出更好的决定。感觉真的像一个更棒的同事。”
- Anthropic 自己的描述: 该模型带来了“一个更有主见的视角,而不是简单地同意用户。”
9. 谁已经用上了——他们在构建什么
早期访问测试者名单就像是 AI 开发者工具领域的名人录。这里快速看一下不同公司是如何运用 Opus 4.7 的:
编程智能体和 IDEs: Cursor、Replit、Warp 和 Devin 都在将 Opus 4.7 集成为其自主编程任务的主要或顶级模型。Devin 特别强调了“long-horizon autonomy”——模型能够连贯地工作数小时,进行以前无法可靠完成的深度调查工作。
代码审查: CodeRabbit 正准备在发布时将 Opus 4.7 用于其“最繁重的审查工作”,理由是在复杂的 pull requests 中,对难以发现的 bug 的召回率提高了 10% 以上。
企业 AI 平台: Hebbia 在处理 retrieval、幻灯片创建和文档生成的 orchestrator agents 方面,工具调用准确率和规划能力都实现了两位数的跃升。Genspark 报告称,这是他们在所有模型中测得的最高的单位工具调用质量比率。
法律与金融: Harvey 报告在 BigLaw Bench 上的实质性准确率达到 90.9%。Hex 称其为“Hex 评估过的最强模型”——它能正确报告缺失数据而不是幻觉出看似合理的 fallback,并能抵抗连 Opus 4.6 都会掉入的数据陷阱。一位金融科技测试者形容它能“在规划阶段捕捉到自己的逻辑错误。”
生命科学: Solve Intelligence 正在利用其改进的视觉能力进行专利工作流程——读取化学结构、解释技术图表,并处理从起草到侵权检测的各种事务。
数据可视化: 一位测试者称其为“世界上用于构建 dashboards 和 data-rich interfaces 的最佳模型”,并指出“它的 design taste 真的令人惊讶——它做出的选择是我真正会发布上线的。”
应用的广度引人注目。这不仅仅是一个编程模型——它正被部署到法律、金融、生命科学和企业自动化等领域。共同点是:这些任务需要持续的推理、精确的工具使用以及在长时间会话中保持可靠的输出。
Opus 4.7 vs Opus 4.6:总结
| 能力 | Opus 4.6 | Opus 4.7 | 变化 |
|---|---|---|---|
| Agentic coding | 强 | 显著增强 | 在主要基准测试上提升 12-14% |
| Self-verification | 有限 | 内置 | 新增能力 |
| 视觉 | 标准 | 更高分辨率 | 大幅改进 |
| 创意输出 | 良好 | “更具品味” | 质量提升 |
| 上下文窗口 | 200K | 1M | 增大 5 倍 |
| 最大输出 | 64K | 128K | 增大 2 倍 |
| 思维模式 | Extended | Adaptive | 自动调整深度 |
| 知识截止日期 | 2025 年 8 月 | 2026 年 1 月 | 更新 5 个月 |
| Tool error recovery | 失败时停止 | 能够继续推进 | 可靠性重大提升 |
| Cyber safeguards | 无 | Project Glasswing | 新的安全框架 |
| 定价 | $5/$25 每 M tokens | $5/$25 每 M tokens | 不变 |
总结来说
Claude Opus 4.7 是一次有针对性的升级,它进一步强化了 Opus 本已擅长的领域——复杂、自主的编程工作——同时在视觉、输出长度和上下文容量方面带来了有意义的改进。
最大的胜利在于智能体的可靠性:self-verification、tool error recovery 和 long-running task consistency。如果你正在构建 AI 驱动的开发工具或使用 Claude Code 进行日常编程工作,这些改进将直接转化为更少的任务失败和更省心的体验。
新的 tokenizer 和 Project Glasswing 网络安全保障措施值得了解,因为它们既影响成本计算,也影响模型在安全相关任务上的行为。
对于已经在使用 Opus 4.6 的开发者来说,升级路径很简单——在你的 API 调用中将 claude-opus-4-6 替换为 claude-opus-4-7。价格不变,能力更强。
相关链接:
- Anthropic 公告: anthropic.com/research/claude-opus-4-7
- API 文档: platform.claude.com/docs
- Project Glasswing: anthropic.com/glasswing
- Cyber Verification Program: claude.com/form/cyber-use-case