Claude Opus 4.7: 新機能とOpus 4.6との比較

Anthropic社は、最新かつ最も高性能な一般利用可能なモデルであるClaude Opus 4.7をリリースしました。もしあなたがコーディング、リサーチ、またはAI搭載製品の構築にOpus 4.6を使用してきたなら、これが変更点と新しい機能が実際に何を意味するのかの全てです。

主要スペックの概要

スペック	Opus 4.7	Opus 4.6
価格	$5 / M input, $25 / M output	$5 / M input, $25 / M output
Context window	1M tokens (約55.5万語)	200K tokens
最大出力	128K tokens	64K tokens
知識のカットオフ	2026年1月	2025年8月
思考モード	Adaptive Thinking	Extended Thinking
APIモデルID	`claude-opus-4-7`	`claude-opus-4-6-20260205`
利用可能プラットフォーム	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

価格は同じで、より大きなcontext、2倍の出力長、そして5ヶ月分新しい知識を持っています。仕様上は、単純なアップグレードです。では、内部で実際に何が改善されたのかを掘り下げてみましょう。

1. Agentic Coding: 最大の改善点

これがOpus 4.7が最も輝く分野です。Anthropicはこれを「高度なソフトウェアエンジニアリングにおいて顕著な改善があり、特に最も困難なタスクで大きな進歩を遂げた」と説明しています。

具体的に何を意味するのでしょうか？3つの点があります：

自己検証 (Self-verification)。 Opus 4.7はコードを書いて返すだけでなく、完了を報告する前に自身の出力を検証する方法を考案します。AIエージェントに「完了しました！」と言われたのに、実際にはコードがコンパイルされなかった経験がある方なら、これがなぜ重要かお分かりでしょう。

長時間タスクの一貫性 (Long-running task consistency)。 このモデルは、複雑で複数ステップにわたるタスクを「厳密かつ一貫して」処理します。以前のモデルは、長いセッションでは一貫性を失う傾向がありました。Opus 4.7は軌道から外れません。

厳格な指示への準拠 (Strict instruction following)。 「指示に正確に注意を払う」ため、モデルがあなたの制約を無視したり、脇道に逸れたりするケースが少なくなります。

ベンチマークの数値

パフォーマンスの向上はわずかなものではありません。トップAI企業による実際のコーディングベンチマークにおいて、Opus 4.7は2桁の改善を示し、以前は手の届かなかった問題を解決しています：

CursorBench: 70%の解決率 (Opus 4.6の58%に対し) — 12ポイントの向上。Cursorはこれを「特に自律性とより創造的な推論において、能力の有意な飛躍」と呼んでいます。
Augmentの93タスクコーディングベンチマーク: Opus 4.6を13%上回る解決率。これには、Opus 4.6もSonnet 4.6も解決できなかった4つのタスクが含まれます。より速い中央値のレイテンシと厳格な指示への準拠も兼ね備えています。
Notion Agent: Opus 4.6を14%上回り、トークン数はより少なく、ツールエラーは3分の1に減少。「私たちの暗黙的なニーズテストに合格した最初のモデルであり、以前はOpusを停止させていたツールの失敗を乗り越えて実行を続けます。」
Rakuten-SWE-Bench: Opus 4.6の3倍以上の本番タスクを解決し、コード品質とテスト品質で2桁の向上を達成。
Warp Terminal Bench: 以前のClaudeモデルが失敗したタスクに合格。Opus 4.6が解決できなかった厄介な並行処理のバグも含まれます。
CodeRabbit code review: 再現率(Recall)が10%以上向上し、精度(precision)を維持しつつ、複雑なPRに含まれる検出しにくいバグを表面化させました。「私たちのハーネスでは、GPT-5.4 xhighより少し速い。」
Genspark Super Agent: 測定された中で最高の品質/ツールコール比を記録。最高のループ耐性（18クエリに1回の割合で無限ループするモデルは、計算リソースを浪費しユーザーをブロックします）、最小の分散、そして最良の丁寧なエラー回復を示しました。

これらは合成ベンチマークではなく、実際の製品を出荷している企業の本番ワークロードです。パターンは一貫しています：Opus 4.7はより多くの作業をこなし、より少ないミスを犯し、問題が発生したときにより良く回復します。

2. Vision: より高解像度の画像理解

Opus 4.7は、より高解像度の画像サポートにより「大幅に優れたビジョン」を持っています。これは単に写真をより鮮明に見ることができるということだけではありません。実用的なユースケースを切り開きます：

Solve Intelligenceは、「化学構造の読み取りから複雑な技術図面の解釈まで、マルチモーダル理解において大きな改善」があったと報告しています。彼らはこれを、起草、権利化、侵害検出、無効性調査などの生命科学分野の特許ワークフローに使用しています。
スクリーンショット、図表、UIモックアップを処理するツールを構築している開発者にとって、より高い解像度は、ラベルの誤読を減らし、レイアウト理解を向上させ、より正確なOCRのような能力を意味します。

3. クリエイティブおよびプロフェッショナルな出力

Anthropicによれば、Opus 4.7は「プロフェッショナルなタスクを完了する際により洗練され、創造的になり、より高品質なインターフェース、スライド、ドキュメントを生成する」とのことです。

最も熱心な支持は、あるテスターからのもので、彼はこれを「ダッシュボードやデータ豊富なインターフェースを構築するための世界最高のモデル。デザインのセンスは本当に驚くべきもので、私が実際に製品として出荷するような選択をします。今では私のデフォルトのデイリードライバーです」と評しています。

UIコンポーネント、スライドデッキ、またはドキュメントレイアウトの生成にClaudeを使用している場合、これは生活の質を意味のある形で向上させるものです。

4. Adaptive Thinking (Extended Thinkingを置き換え)

Opus 4.6は、モデルが推論の連鎖を明示的に示すモードであるExtended Thinkingを使用していました。Opus 4.7はAdaptive Thinkingに切り替わり、タスクの複雑さに応じて推論の深さを自動的に調整します。

実際の違いは、手動で思考モードを切り替える必要がないことです。モデルはタスクに必要な推論の量を判断し、それに応じてリソースを割り当てます。単純な質問には速い回答を、複雑な問題にはより深い分析を提供します。

注意：Sonnet 4.6はまだExtended Thinkingをサポートしています。もし可視化された推論の連鎖が特に必要な場合は、Sonnetが選択肢となります。

5. Context Window: 5倍のサイズ、新しいTokenizer

200Kから1Mトークンへのジャンプは、仕様上は非常に大きいです。これは約555,000語に相当し、コードベース全体、長いドキュメントコレクション、または長時間の会話履歴を収めるのに十分です。

しかし、重要な詳細があります：Opus 4.7は新しいtokenizerを使用しています。同じテキストでも、Opus 4.6のtokenizerよりも多くのトークンを生成します。Anthropicは、1Mのウィンドウが約555K語に相当すると述べており、これは古いtokenizerの百万トークンあたり約750K語という典型的な値と比較されます。実際には、Opus 4.6で1,000トークンを消費したプロンプトが、Opus 4.7では約1,300トークンを消費する可能性があります。トークンあたりの価格は変わっていませんが、会話あたりの実質的なコストは約30%上昇します。APIのヘビーユーザーであれば、予算に含める価値があります。

これが実際に何を意味するかというと：

プロンプトが以前よりも多くのトークンを消費します
1Mウィンドウの実質的な「テキスト容量」は、古いtokenizerの約740Kトークンに相当します
それでもOpus 4.6の200Kからの大幅なアップグレードですが、コスト見積もりの際には認識しておく価値があります

6. Max Output: 128Kに倍増

Opus 4.6は出力を64Kトークンに制限していました。Opus 4.7はそれを128Kに倍増させます。これは以下の点で重要です：

長いドキュメントやレポートを一度に生成する
複数のファイルにまたがる複雑なコード生成
以前はモデルが応答を切り捨てなければならなかった詳細な分析タスク

モデルが広範な差分や複数ファイルの変更を生成する必要があるエージェント的なワークフローにとって、128Kの出力は実用的な改善です。

7. Project Glasswingとサイバーセーフガード

Opus 4.7は、AnthropicのProject Glasswingフレームワークの下でリリースされた最初のモデルです。先週、Anthropicはサイバーセキュリティに対するAIモデルのリスクと利点の両方を強調し、最も強力なモデルであるClaude Mythos Previewを広範にリリースする前に、より能力の低いモデルで新しいセーフガードをテストすることを約束しました。

これがOpus 4.7にとって何を意味するか：

サイバー能力の削減: トレーニング中に、AnthropicはMythos Previewと比較してサイバーセキュリティ能力を「差別的に削減する試みを実験」しました。
自動セーフガード: モデルには、「禁止されている、またはリスクの高いサイバーセキュリティ利用」を示すリクエストをブロックする組み込みの検出機能が含まれています。
Cyber Verification Program: 正当な業務（脆弱性調査、ペネトレーションテスト、レッドチーミング）を行うセキュリティ専門家は、Cyber Verification Programを通じてアクセスを申請できます。

これは、Anthropicによる差別的能力制御の最初の実世界でのテストです。つまり、特定の分野でモデルの能力を意図的に低くしつつ、他の分野では改善するというものです。彼らがOpus 4.7の展開から学ぶことは、Mythosクラスのモデルをより広範にどのように（そしていつ）リリースするかに影響を与えるでしょう。

8. 利用可能性と統合

Opus 4.7は、初日からすべての主要なプラットフォームで利用可能です：

Claude API — claude-opus-4-7を介して直接アクセス
Amazon Bedrock — anthropic.claude-opus-4-7 (リサーチプレビュー)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — 新たなプラットフォーム追加

Microsoft Foundryの追加は注目に値します。Claude Opusモデルがローンチ時にMicrosoftのプラットフォームで利用可能になるのは初めてのことです。

アーリーテスターの声

ベンチマークの数値を超えて、エンタープライズテスターからの定性的なフィードバックは、一貫したテーマを明らかにしています：

信頼性について:

Hex: 「Hexが評価した中で最も強力なモデル。データが欠落している場合に、もっともらしいが誤った代替案を提供するのではなく、正しく報告します。また、Opus 4.6でさえも陥る不協和なデータの罠に抵抗します。」
Devin: 「長期間の自律性を新たなレベルに引き上げます。何時間も一貫して動作し、諦めるのではなく困難な問題を乗り越えて進みます。」

効率性について:

Replit: 「簡単なアップグレードの決断でした。同じ品質をより低コストで実現し、ログやトレースの分析、バグの発見、修正案の提案といったタスクでより効率的かつ正確です。」
Hex: 「低労力のOpus 4.7は、中労力のOpus 4.6とほぼ同等です。」— これは、より少ないプロンプトエンジニアリングで同じ品質の出力が得られることを意味します。

推論について:

Harvey (法律AI): 「BigLaw Benchにおいて、高労力で90.9%の実質的な正確性を達成し、より優れた推論のキャリブレーションを示しました。譲渡条項と支配権変更条項を正しく区別します。これは歴史的にフロンティアモデルが苦手としてきたタスクです。」
Quantium: 「最大の進歩は最も重要な部分で現れました：推論の深さ、構造化された問題の枠組み作り、そして複雑な技術的作業です。」

個性について:

Replit: 「技術的な議論の際により良い決断を下すのを助けるために、反論してくれるのが気に入っています。本当に優れた同僚のように感じます。」
Anthropic自身の説明: このモデルは「単にユーザーに同意するのではなく、より意見を持った視点」をもたらします。

9. すでに誰が使用しているか — そして何を構築しているか

早期アクセスのテスターリストは、AI搭載開発者ツールの著名な企業が名を連ねています。さまざまな企業がOpus 4.7をどのように活用しているかを簡単に見てみましょう：

コーディングエージェントとIDE: Cursor、Replit、Warp、Devinはすべて、自律的なコーディングタスクの主要またはトップティアモデルとしてOpus 4.7を統合しています。Devinは特に「長期間の自律性」を強調しています。このモデルは、以前は確実には不可能だった深い調査作業で何時間も一貫して動作します。

コードレビュー: CodeRabbitは、複雑なプルリクエストにおける検出しにくいバグに対する再現率(recall)が10%以上向上したことを理由に、ローンチ時に「最もヘビーなレビュー作業」にOpus 4.7を投入する予定です。

エンタープライズAIプラットフォーム: Hebbiaは、検索、スライド作成、ドキュメント生成を処理するオーケストレーターエージェントのツールコール精度とプランニングで2桁の向上を見ました。Gensparkは、どのモデルよりも高い品質/ツールコール比を測定したと報告しています。

法律と金融: HarveyはBigLaw Benchで90.9%の実質的な正確性を報告しています。Hexはこれを「Hexが評価した中で最も強力なモデル」と呼んでいます。これは、もっともらしい代替案を幻覚するのではなく、欠落しているデータを正しく報告し、Opus 4.6でさえも陥るデータの罠に抵抗するためです。あるフィンテックのテスターは、それが「プランニング段階で自身の論理的な欠陥を捉える」と述べています。

生命科学: Solve Intelligenceは、改善されたビジョン機能を特許ワークフローに利用しています。化学構造を読み取り、技術図面を解釈し、起草から侵害検出まですべてを処理します。

データ可視化: あるテスターは、これを「ダッシュボードやデータ豊富なインターフェースを構築するための世界最高のモデル」と呼び、「デザインのセンスは本当に驚くべきもので、私が実際に製品として出荷するような選択をします」と述べています。

採用の幅広さは注目に値します。これは単なるコーディングモデルではありません。法律、金融、生命科学、エンタープライズオートメーションにわたって展開されています。共通しているのは、持続的な推論、正確なツール使用、および長時間のセッションにわたる信頼性の高い出力を必要とするタスクです。

Opus 4.7 vs Opus 4.6: まとめ

機能	Opus 4.6	Opus 4.7	変更点
Agentic coding	強力	大幅に強力	主要ベンチマークで+12-14%
Self-verification	限定的	組み込み	新機能
Vision	標準	高解像度	大幅な改善
クリエイティブな出力	良好	「より洗練された」	品質の向上
Context window	200K	1M	5倍に拡大
Max output	64K	128K	2倍に拡大
思考モード	Extended	Adaptive	深さを自動調整
知識のカットオフ	2025年8月	2026年1月	5ヶ月分新しい
ツールエラーからの回復	失敗時に停止	乗り越えて続行	信頼性が大幅に向上
Cyber safeguards	なし	Project Glasswing	新しい安全フレームワーク
価格	$5/$25 / Mトークン	$5/$25 / Mトークン	変更なし

結論

Claude Opus 4.7は、Opusがもともと得意としていた複雑で自律的なコーディング作業をさらに強化しつつ、ビジョン、出力長、コンテキスト容量に有意義な改善を加えた、焦点を絞ったアップグレードです。

最大の利点は、エージェントの信頼性にあります：自己検証、ツールエラーからの回復、そして長時間タスクの一貫性です。もしあなたがAI搭載の開発ツールを構築しているか、日常のコーディング作業にClaude Codeを使用しているなら、これらの改善はタスクの失敗を減らし、監視の手間を省くことに直結します。

新しいtokenizerとProject Glasswingのサイバーセーフガードは、コスト計算とセキュリティ関連タスクにおけるモデルの挙動の両方に影響を与えるため、理解しておく価値があります。

すでにOpus 4.6を使用している開発者にとって、アップグレードパスは簡単です。APIコールでclaude-opus-4-6をclaude-opus-4-7に交換するだけです。同じ価格で、より高い能力が得られます。

リンク:

Anthropic発表: anthropic.com/research/claude-opus-4-7
APIドキュメント: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7：何が新しくなった？Opus 4.6との比較