Smarter Tools for a Smarter You.

通过 utilo 发现最好的 AI 和生产力工具

Claude Opus 4.7:有什么新功能?与 Opus 4.6 对比

Claude Opus 4.7:有哪些新功能,与 Opus 4.6 相比如何 Anthropic 刚刚发布了 Claude Opus 4.7——他们最新、最强大的通用模型。如果你一直在使用 Opus 4.6 进行编码、研究或构建 AI 产品,这里为你梳理了所有的变化,以及这些新功能在实践中究竟意味着什么。 关键规格一览...

4/17/2026

Claude Opus 4.7:有什么新功能?与 Opus 4.6 对比

Claude Opus 4.7:有哪些新功能,与 Opus 4.6 相比如何

Anthropic 刚刚发布了 Claude Opus 4.7——他们最新、最强大的通用模型。如果你一直在使用 Opus 4.6 进行编码、研究或构建 AI 产品,这里为你梳理了所有的变化,以及这些新功能在实践中究竟意味着什么。


关键规格一览

规格Opus 4.7Opus 4.6
定价$5 / M input, $25 / M output$5 / M input, $25 / M output
上下文窗口1M tokens (约 55.5 万单词)200K tokens
最大输出128K tokens64K tokens
知识截止日期2026 年 1 月2025 年 8 月
思维模式Adaptive ThinkingExtended Thinking
API 模型 IDclaude-opus-4-7claude-opus-4-6-20260205
可用平台API, Bedrock, Vertex AI, FoundryAPI, Bedrock, Vertex AI

价格不变,上下文窗口更大,输出长度翻倍,知识还更新了五个月。从纸面上看,这是一次直接的升级。下面咱们来深入了解一下底层到底有哪些改进。


1. 自主智能体编程 (Agentic Coding):核心亮点升级

这是 Opus 4.7 最亮眼的地方。Anthropic 将其描述为“在高级软件工程方面有显著改进,尤其在最困难的任务上取得了重大进展。”

具体来说,这意味着什么?三件事:

自我验证 (Self-verification)。 Opus 4.7 不仅仅是写完代码然后交给你——它会在报告完成之前,设计方法来验证自己的输出。如果你曾遇到 AI 智能体说“搞定!”,结果代码却根本无法编译,你就会明白这有多重要。

长时任务一致性 (Long-running task consistency)。 该模型能够“严谨且一致地”处理复杂的多步骤任务。以前的模型在较长的会话中容易出现连贯性问题。Opus 4.7 则能始终保持在正轨上。

严格指令遵循 (Strict instruction following)。 它会“精确地关注指令”——这意味着模型忽略你的约束或偏离主题的情况会更少。

基准测试数据

性能提升并非微不足道。在来自顶级 AI 公司的真实世界编程基准测试中,Opus 4.7 显示出两位数的改进,并解决了以前无法解决的问题:

  • CursorBench: 70% 的解决率(Opus 4.6 为 58%)——提升了 12 个百分点。Cursor 称其为“能力上的一次有意义的飞跃,尤其是在自主性和更具创造性的推理方面。”

  • Augment 的 93 项任务编程基准测试: 解决率比 Opus 4.6 高出 13%,其中包括 4 个 Opus 4.6 和 Sonnet 4.6 都无法解决的任务。同时,中位延迟更低,且能严格遵循指令。

  • Notion Agent: 比 Opus 4.6 性能高出 14%,使用的 tokens 更少,工具错误减少了三分之二。“这是第一个通过我们隐性需求测试的模型,它能在过去会让 Opus 彻底卡住的工具故障中继续执行。”

  • Rakuten-SWE-Bench: 解决的生产任务比 Opus 4.6 多 3 倍,在代码质量和测试质量方面有两位数的提升。

  • Warp Terminal Bench: 通过了之前 Claude 模型失败的任务,包括一个 Opus 4.6 无法解决的棘手并发 bug。

  • CodeRabbit 代码审查: 召回率提高了 10% 以上,能够在复杂的 PR 中发现难以察觉的 bug,同时精确率保持稳定。“在我们的测试环境中,比 GPT-5.4 xhigh 稍快一些。”

  • Genspark Super Agent: 测得的单位工具调用质量比率最高。最好的循环抵抗能力(一个在 18 个查询中有 1 个会无限循环的模型会浪费计算资源并阻塞用户),最低的方差,以及最好的优雅错误恢复能力。

这些不是综合基准测试——它们是来自发布真实产品的公司的生产工作负载。其模式是一致的:Opus 4.7 能完成更多工作,犯更少的错误,并在出问题时能更好地恢复。


2. 视觉能力:更高分辨率的图像理解

Opus 4.7 具有“大幅提升的视觉能力”,支持更高分辨率的图像。这不仅仅是能更清楚地看图片——它开启了新的实用场景:

  • Solve Intelligence 报告称“在多模态理解方面有重大改进,从读取化学结构到解释复杂的技术图表。”他们正将其用于生命科学领域的专利工作流程,包括起草、申诉、侵权检测和无效宣告图表绘制。

  • 对于构建处理屏幕截图、图表或 UI 原型工具的开发者来说,更高的分辨率意味着更少的标签误读、更好的布局理解以及更准确的类 OCR 功能。


3. 创意与专业产出

Anthropic 表示,Opus 4.7 “在完成专业任务时更具品味和创造力,能生成更高质量的界面、幻灯片和文档。”

最热情的评价来自一位测试者,他称其为“世界上用于构建仪表盘和富数据界面的最佳模型。它的设计品味真的令人惊讶——它做出的选择是我真正会发布上线的。现在它是我默认的日常主力工具了。”

如果你使用 Claude 来生成 UI 组件、幻灯片或文档布局,这将是一次有意义的体验质量提升。


4. Adaptive Thinking(取代 Extended Thinking)

Opus 4.6 使用 Extended Thinking——一种模型会明确展示其推理链的模式。Opus 4.7 则切换到 Adaptive Thinking,它会根据任务的复杂性自动调整推理深度。

实际的区别是:你不再需要手动切换思维模式。模型会判断一个任务需要多少推理,并相应地分配资源。简单问题得到快速回答;复杂问题得到更深入的分析。

注意:Sonnet 4.6 仍然支持 Extended Thinking。如果你特别需要可见的推理链,Sonnet 仍然是你的选择。


5. 上下文窗口:5倍容量,全新分词器 (Tokenizer)

从 200K tokens 跃升到 1M tokens 在纸面上是巨大的。这大约是 55.5 万个单词——足以容纳整个代码库、长篇文档集或扩展的对话历史记录。

然而,有一个重要细节:Opus 4.7 使用了一个新的分词器 (tokenizer)。同样的文本会比使用 Opus 4.6 的 tokenizer 产生更多的 tokens。Anthropic 指出,1M 的窗口大约对应 55.5 万个单词,而使用旧的 tokenizer,每百万 tokens 通常对应约 75 万个单词。在实践中,一个用 Opus 4.6 花费 1000 tokens 的提示,现在用 Opus 4.7 可能会花费大约 1300 tokens。每个 token 的价格没有变,但你每次对话的有效成本大约上升了 30%。如果你是 API 的重度用户,这一点值得计入你的预算。

这在实践中意味着:

  • 你的提示将消耗比以前更多的 tokens
  • 1M 窗口的有效“文本容量”大约相当于旧 tokenizer 上的约 74 万 tokens
  • 尽管如此,这仍然是相比 Opus 4.6 的 200K 的一次重大升级,但在成本估算时需要注意。

6. 最大输出量:翻倍至 128K

Opus 4.6 的输出上限为 64K tokens。Opus 4.7 将其翻倍至 128K。这对于以下场景很重要:

  • 一次性生成长篇文档或报告
  • 跨多个文件的复杂代码生成
  • 之前模型不得不截断其响应的详细分析任务

对于需要模型生成大量 diff 或多文件变更的自主智能体工作流来说,128K 的输出是一项实用的改进。


7. Project Glasswing 与网络安全保障

Opus 4.7 是 Anthropic 在其 Project Glasswing 框架下发布的首个模型。上周,Anthropic 强调了 AI 模型在网络安全领域的风险和益处,并承诺在广泛发布其最强大的模型 Claude Mythos Preview 之前,会在能力较弱的模型上测试新的安全保障措施。

这对 Opus 4.7 意味着什么:

  • 降低了网络安全能力: 在训练期间,Anthropic“尝试了差异化地降低”其网络安全能力,使其低于 Mythos Preview。
  • 自动安全保障: 模型内置了检测功能,会阻止那些表明“被禁止或高风险网络安全用途”的请求。
  • 网络安全验证计划: 从事合法工作(如漏洞研究、渗透测试、红队演练)的安全专业人员可以通过 Cyber Verification Program 申请访问权限。

这是 Anthropic 对差异化能力控制(differential capability controls)的首次真实世界测试——有意地让模型在特定领域的能力减弱,同时在其他领域进行改进。他们从 Opus 4.7 的部署中学到的经验,将影响他们未来如何(以及何时)更广泛地发布 Mythos级别的模型。


8. 可用性与集成

Opus 4.7 从发布第一天起就在所有主要平台上可用:

  • Claude API — 通过 claude-opus-4-7 直接访问
  • Amazon Bedrockanthropic.claude-opus-4-7 (研究预览)
  • Google Cloud Vertex AIclaude-opus-4-7
  • Microsoft Foundry — 新增的平台

新增 Microsoft Foundry 值得注意——这是 Claude Opus 模型首次在发布时就登陆微软的平台。


早期测试者怎么说

除了基准测试数据,来自企业测试者的定性反馈揭示了一些一致的主题:

关于可靠性:

  • Hex: “这是 Hex 评估过的最强模型。当数据缺失时,它会正确报告,而不是提供看似合理但错误的 fallback,而且它能抵抗连 Opus 4.6 都会掉入的 dissonant-data traps。”
  • Devin: “将 long-horizon autonomy 提升到了一个新水平。它能连贯地工作数小时,攻克难题而不是放弃。”

关于效率:

  • Replit: “一个轻松的升级决定。以更低的成本获得同等质量——在分析日志和 traces、发现 bug 和提出修复方案等任务上更高效、更精确。”
  • Hex: “低 effort 的 Opus 4.7 大致相当于中等 effort 的 Opus 4.6。” —— 这意味着用更少的 prompt engineering 就能获得同样高质量的输出。

关于推理:

  • Harvey (法律 AI): “在 BigLaw Bench 上,高 effort 下的实质性准确率达到 90.9%,并具有更好的 reasoning calibration。它能正确区分转让条款和控制权变更条款,这项任务在历史上一直对前沿模型构成挑战。”
  • Quantium: “最大的进步体现在最重要的地方:推理深度、结构化问题构建和复杂的技术工作。”

关于个性:

  • Replit: “我喜欢它在技术讨论中会提出不同意见,帮助我做出更好的决定。感觉真的像一个更棒的同事。”
  • Anthropic 自己的描述: 该模型带来了“一个更有主见的视角,而不是简单地同意用户。”

9. 谁已经用上了——他们在构建什么

早期访问测试者名单就像是 AI 开发者工具领域的名人录。这里快速看一下不同公司是如何运用 Opus 4.7 的:

编程智能体和 IDEs: Cursor、Replit、Warp 和 Devin 都在将 Opus 4.7 集成为其自主编程任务的主要或顶级模型。Devin 特别强调了“long-horizon autonomy”——模型能够连贯地工作数小时,进行以前无法可靠完成的深度调查工作。

代码审查: CodeRabbit 正准备在发布时将 Opus 4.7 用于其“最繁重的审查工作”,理由是在复杂的 pull requests 中,对难以发现的 bug 的召回率提高了 10% 以上。

企业 AI 平台: Hebbia 在处理 retrieval、幻灯片创建和文档生成的 orchestrator agents 方面,工具调用准确率和规划能力都实现了两位数的跃升。Genspark 报告称,这是他们在所有模型中测得的最高的单位工具调用质量比率。

法律与金融: Harvey 报告在 BigLaw Bench 上的实质性准确率达到 90.9%。Hex 称其为“Hex 评估过的最强模型”——它能正确报告缺失数据而不是幻觉出看似合理的 fallback,并能抵抗连 Opus 4.6 都会掉入的数据陷阱。一位金融科技测试者形容它能“在规划阶段捕捉到自己的逻辑错误。”

生命科学: Solve Intelligence 正在利用其改进的视觉能力进行专利工作流程——读取化学结构、解释技术图表,并处理从起草到侵权检测的各种事务。

数据可视化: 一位测试者称其为“世界上用于构建 dashboards 和 data-rich interfaces 的最佳模型”,并指出“它的 design taste 真的令人惊讶——它做出的选择是我真正会发布上线的。”

应用的广度引人注目。这不仅仅是一个编程模型——它正被部署到法律、金融、生命科学和企业自动化等领域。共同点是:这些任务需要持续的推理、精确的工具使用以及在长时间会话中保持可靠的输出。


Opus 4.7 vs Opus 4.6:总结

能力Opus 4.6Opus 4.7变化
Agentic coding显著增强在主要基准测试上提升 12-14%
Self-verification有限内置新增能力
视觉标准更高分辨率大幅改进
创意输出良好“更具品味”质量提升
上下文窗口200K1M增大 5 倍
最大输出64K128K增大 2 倍
思维模式ExtendedAdaptive自动调整深度
知识截止日期2025 年 8 月2026 年 1 月更新 5 个月
Tool error recovery失败时停止能够继续推进可靠性重大提升
Cyber safeguardsProject Glasswing新的安全框架
定价$5/$25 每 M tokens$5/$25 每 M tokens不变

总结来说

Claude Opus 4.7 是一次有针对性的升级,它进一步强化了 Opus 本已擅长的领域——复杂、自主的编程工作——同时在视觉、输出长度和上下文容量方面带来了有意义的改进。

最大的胜利在于智能体的可靠性:self-verification、tool error recovery 和 long-running task consistency。如果你正在构建 AI 驱动的开发工具或使用 Claude Code 进行日常编程工作,这些改进将直接转化为更少的任务失败和更省心的体验。

新的 tokenizer 和 Project Glasswing 网络安全保障措施值得了解,因为它们既影响成本计算,也影响模型在安全相关任务上的行为。

对于已经在使用 Opus 4.6 的开发者来说,升级路径很简单——在你的 API 调用中将 claude-opus-4-6 替换为 claude-opus-4-7。价格不变,能力更强。

相关链接: