Claude Opus 4.7：有哪些新功能，与 Opus 4.6 相比如何

Anthropic 刚刚发布了 Claude Opus 4.7——他们最新、最强大的通用模型。如果你一直在使用 Opus 4.6 进行编码、研究或构建 AI 产品，这里为你梳理了所有的变化，以及这些新功能在实践中究竟意味着什么。

关键规格一览

规格	Opus 4.7	Opus 4.6
定价	$5 / M input, $25 / M output	$5 / M input, $25 / M output
上下文窗口	1M tokens (约 55.5 万单词)	200K tokens
最大输出	128K tokens	64K tokens
知识截止日期	2026 年 1 月	2025 年 8 月
思维模式	Adaptive Thinking	Extended Thinking
API 模型 ID	`claude-opus-4-7`	`claude-opus-4-6-20260205`
可用平台	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

价格不变，上下文窗口更大，输出长度翻倍，知识还更新了五个月。从纸面上看，这是一次直接的升级。下面咱们来深入了解一下底层到底有哪些改进。

1. 自主智能体编程 (Agentic Coding)：核心亮点升级

这是 Opus 4.7 最亮眼的地方。Anthropic 将其描述为“在高级软件工程方面有显著改进，尤其在最困难的任务上取得了重大进展。”

具体来说，这意味着什么？三件事：

自我验证 (Self-verification)。 Opus 4.7 不仅仅是写完代码然后交给你——它会在报告完成之前，设计方法来验证自己的输出。如果你曾遇到 AI 智能体说“搞定！”，结果代码却根本无法编译，你就会明白这有多重要。

长时任务一致性 (Long-running task consistency)。 该模型能够“严谨且一致地”处理复杂的多步骤任务。以前的模型在较长的会话中容易出现连贯性问题。Opus 4.7 则能始终保持在正轨上。

严格指令遵循 (Strict instruction following)。 它会“精确地关注指令”——这意味着模型忽略你的约束或偏离主题的情况会更少。

基准测试数据

性能提升并非微不足道。在来自顶级 AI 公司的真实世界编程基准测试中，Opus 4.7 显示出两位数的改进，并解决了以前无法解决的问题：

CursorBench： 70% 的解决率（Opus 4.6 为 58%）——提升了 12 个百分点。Cursor 称其为“能力上的一次有意义的飞跃，尤其是在自主性和更具创造性的推理方面。”
Augment 的 93 项任务编程基准测试： 解决率比 Opus 4.6 高出 13%，其中包括 4 个 Opus 4.6 和 Sonnet 4.6 都无法解决的任务。同时，中位延迟更低，且能严格遵循指令。
Notion Agent： 比 Opus 4.6 性能高出 14%，使用的 tokens 更少，工具错误减少了三分之二。“这是第一个通过我们隐性需求测试的模型，它能在过去会让 Opus 彻底卡住的工具故障中继续执行。”
Rakuten-SWE-Bench： 解决的生产任务比 Opus 4.6 多 3 倍，在代码质量和测试质量方面有两位数的提升。
Warp Terminal Bench： 通过了之前 Claude 模型失败的任务，包括一个 Opus 4.6 无法解决的棘手并发 bug。
CodeRabbit 代码审查： 召回率提高了 10% 以上，能够在复杂的 PR 中发现难以察觉的 bug，同时精确率保持稳定。“在我们的测试环境中，比 GPT-5.4 xhigh 稍快一些。”
Genspark Super Agent： 测得的单位工具调用质量比率最高。最好的循环抵抗能力（一个在 18 个查询中有 1 个会无限循环的模型会浪费计算资源并阻塞用户），最低的方差，以及最好的优雅错误恢复能力。

这些不是综合基准测试——它们是来自发布真实产品的公司的生产工作负载。其模式是一致的：Opus 4.7 能完成更多工作，犯更少的错误，并在出问题时能更好地恢复。

2. 视觉能力：更高分辨率的图像理解

Opus 4.7 具有“大幅提升的视觉能力”，支持更高分辨率的图像。这不仅仅是能更清楚地看图片——它开启了新的实用场景：

Solve Intelligence 报告称“在多模态理解方面有重大改进，从读取化学结构到解释复杂的技术图表。”他们正将其用于生命科学领域的专利工作流程，包括起草、申诉、侵权检测和无效宣告图表绘制。
对于构建处理屏幕截图、图表或 UI 原型工具的开发者来说，更高的分辨率意味着更少的标签误读、更好的布局理解以及更准确的类 OCR 功能。

3. 创意与专业产出

Anthropic 表示，Opus 4.7 “在完成专业任务时更具品味和创造力，能生成更高质量的界面、幻灯片和文档。”

最热情的评价来自一位测试者，他称其为“世界上用于构建仪表盘和富数据界面的最佳模型。它的设计品味真的令人惊讶——它做出的选择是我真正会发布上线的。现在它是我默认的日常主力工具了。”

如果你使用 Claude 来生成 UI 组件、幻灯片或文档布局，这将是一次有意义的体验质量提升。

4. Adaptive Thinking（取代 Extended Thinking）

Opus 4.6 使用 Extended Thinking——一种模型会明确展示其推理链的模式。Opus 4.7 则切换到 Adaptive Thinking，它会根据任务的复杂性自动调整推理深度。

实际的区别是：你不再需要手动切换思维模式。模型会判断一个任务需要多少推理，并相应地分配资源。简单问题得到快速回答；复杂问题得到更深入的分析。

注意：Sonnet 4.6 仍然支持 Extended Thinking。如果你特别需要可见的推理链，Sonnet 仍然是你的选择。

5. 上下文窗口：5倍容量，全新分词器 (Tokenizer)

从 200K tokens 跃升到 1M tokens 在纸面上是巨大的。这大约是 55.5 万个单词——足以容纳整个代码库、长篇文档集或扩展的对话历史记录。

然而，有一个重要细节：Opus 4.7 使用了一个新的分词器 (tokenizer)。同样的文本会比使用 Opus 4.6 的 tokenizer 产生更多的 tokens。Anthropic 指出，1M 的窗口大约对应 55.5 万个单词，而使用旧的 tokenizer，每百万 tokens 通常对应约 75 万个单词。在实践中，一个用 Opus 4.6 花费 1000 tokens 的提示，现在用 Opus 4.7 可能会花费大约 1300 tokens。每个 token 的价格没有变，但你每次对话的有效成本大约上升了 30%。如果你是 API 的重度用户，这一点值得计入你的预算。

这在实践中意味着：

你的提示将消耗比以前更多的 tokens
1M 窗口的有效“文本容量”大约相当于旧 tokenizer 上的约 74 万 tokens
尽管如此，这仍然是相比 Opus 4.6 的 200K 的一次重大升级，但在成本估算时需要注意。

6. 最大输出量：翻倍至 128K

Opus 4.6 的输出上限为 64K tokens。Opus 4.7 将其翻倍至 128K。这对于以下场景很重要：

一次性生成长篇文档或报告
跨多个文件的复杂代码生成
之前模型不得不截断其响应的详细分析任务

对于需要模型生成大量 diff 或多文件变更的自主智能体工作流来说，128K 的输出是一项实用的改进。

7. Project Glasswing 与网络安全保障

Opus 4.7 是 Anthropic 在其 Project Glasswing 框架下发布的首个模型。上周，Anthropic 强调了 AI 模型在网络安全领域的风险和益处，并承诺在广泛发布其最强大的模型 Claude Mythos Preview 之前，会在能力较弱的模型上测试新的安全保障措施。

这对 Opus 4.7 意味着什么：

降低了网络安全能力： 在训练期间，Anthropic“尝试了差异化地降低”其网络安全能力，使其低于 Mythos Preview。
自动安全保障： 模型内置了检测功能，会阻止那些表明“被禁止或高风险网络安全用途”的请求。
网络安全验证计划： 从事合法工作（如漏洞研究、渗透测试、红队演练）的安全专业人员可以通过 Cyber Verification Program 申请访问权限。

这是 Anthropic 对差异化能力控制（differential capability controls）的首次真实世界测试——有意地让模型在特定领域的能力减弱，同时在其他领域进行改进。他们从 Opus 4.7 的部署中学到的经验，将影响他们未来如何（以及何时）更广泛地发布 Mythos级别的模型。

8. 可用性与集成

Opus 4.7 从发布第一天起就在所有主要平台上可用：

Claude API — 通过 claude-opus-4-7 直接访问
Amazon Bedrock — anthropic.claude-opus-4-7 (研究预览)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — 新增的平台

新增 Microsoft Foundry 值得注意——这是 Claude Opus 模型首次在发布时就登陆微软的平台。

早期测试者怎么说

除了基准测试数据，来自企业测试者的定性反馈揭示了一些一致的主题：

关于可靠性：

Hex： “这是 Hex 评估过的最强模型。当数据缺失时，它会正确报告，而不是提供看似合理但错误的 fallback，而且它能抵抗连 Opus 4.6 都会掉入的 dissonant-data traps。”
Devin： “将 long-horizon autonomy 提升到了一个新水平。它能连贯地工作数小时，攻克难题而不是放弃。”

关于效率：

Replit： “一个轻松的升级决定。以更低的成本获得同等质量——在分析日志和 traces、发现 bug 和提出修复方案等任务上更高效、更精确。”
Hex： “低 effort 的 Opus 4.7 大致相当于中等 effort 的 Opus 4.6。” —— 这意味着用更少的 prompt engineering 就能获得同样高质量的输出。

关于推理：

Harvey (法律 AI)： “在 BigLaw Bench 上，高 effort 下的实质性准确率达到 90.9%，并具有更好的 reasoning calibration。它能正确区分转让条款和控制权变更条款，这项任务在历史上一直对前沿模型构成挑战。”
Quantium： “最大的进步体现在最重要的地方：推理深度、结构化问题构建和复杂的技术工作。”

关于个性：

Replit： “我喜欢它在技术讨论中会提出不同意见，帮助我做出更好的决定。感觉真的像一个更棒的同事。”
Anthropic 自己的描述： 该模型带来了“一个更有主见的视角，而不是简单地同意用户。”

9. 谁已经用上了——他们在构建什么

早期访问测试者名单就像是 AI 开发者工具领域的名人录。这里快速看一下不同公司是如何运用 Opus 4.7 的：

编程智能体和 IDEs： Cursor、Replit、Warp 和 Devin 都在将 Opus 4.7 集成为其自主编程任务的主要或顶级模型。Devin 特别强调了“long-horizon autonomy”——模型能够连贯地工作数小时，进行以前无法可靠完成的深度调查工作。

代码审查： CodeRabbit 正准备在发布时将 Opus 4.7 用于其“最繁重的审查工作”，理由是在复杂的 pull requests 中，对难以发现的 bug 的召回率提高了 10% 以上。

企业 AI 平台： Hebbia 在处理 retrieval、幻灯片创建和文档生成的 orchestrator agents 方面，工具调用准确率和规划能力都实现了两位数的跃升。Genspark 报告称，这是他们在所有模型中测得的最高的单位工具调用质量比率。

法律与金融： Harvey 报告在 BigLaw Bench 上的实质性准确率达到 90.9%。Hex 称其为“Hex 评估过的最强模型”——它能正确报告缺失数据而不是幻觉出看似合理的 fallback，并能抵抗连 Opus 4.6 都会掉入的数据陷阱。一位金融科技测试者形容它能“在规划阶段捕捉到自己的逻辑错误。”

生命科学： Solve Intelligence 正在利用其改进的视觉能力进行专利工作流程——读取化学结构、解释技术图表，并处理从起草到侵权检测的各种事务。

数据可视化： 一位测试者称其为“世界上用于构建 dashboards 和 data-rich interfaces 的最佳模型”，并指出“它的 design taste 真的令人惊讶——它做出的选择是我真正会发布上线的。”

应用的广度引人注目。这不仅仅是一个编程模型——它正被部署到法律、金融、生命科学和企业自动化等领域。共同点是：这些任务需要持续的推理、精确的工具使用以及在长时间会话中保持可靠的输出。

Opus 4.7 vs Opus 4.6：总结

能力	Opus 4.6	Opus 4.7	变化
Agentic coding	强	显著增强	在主要基准测试上提升 12-14%
Self-verification	有限	内置	新增能力
视觉	标准	更高分辨率	大幅改进
创意输出	良好	“更具品味”	质量提升
上下文窗口	200K	1M	增大 5 倍
最大输出	64K	128K	增大 2 倍
思维模式	Extended	Adaptive	自动调整深度
知识截止日期	2025 年 8 月	2026 年 1 月	更新 5 个月
Tool error recovery	失败时停止	能够继续推进	可靠性重大提升
Cyber safeguards	无	Project Glasswing	新的安全框架
定价	$5/$25 每 M tokens	$5/$25 每 M tokens	不变

总结来说

Claude Opus 4.7 是一次有针对性的升级，它进一步强化了 Opus 本已擅长的领域——复杂、自主的编程工作——同时在视觉、输出长度和上下文容量方面带来了有意义的改进。

最大的胜利在于智能体的可靠性：self-verification、tool error recovery 和 long-running task consistency。如果你正在构建 AI 驱动的开发工具或使用 Claude Code 进行日常编程工作，这些改进将直接转化为更少的任务失败和更省心的体验。

新的 tokenizer 和 Project Glasswing 网络安全保障措施值得了解，因为它们既影响成本计算，也影响模型在安全相关任务上的行为。

对于已经在使用 Opus 4.6 的开发者来说，升级路径很简单——在你的 API 调用中将 claude-opus-4-6 替换为 claude-opus-4-7。价格不变，能力更强。

相关链接：

Anthropic 公告: anthropic.com/research/claude-opus-4-7
API 文档: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7：有什么新功能？与 Opus 4.6 对比