Claude Opus 4.7: 새로워진 점과 Opus 4.6과의 비교

Anthropic이 방금 최신이자 가장 뛰어난 정식 모델인 Claude Opus 4.7을 출시했어요. 만약 코딩, 리서치 또는 AI 기반 제품을 구축하는 데 Opus 4.6을 사용해 오셨다면, 변경된 모든 사항과 새로운 기능이 실제로 무엇을 의미하는지 여기에서 확인해 보세요.

주요 사양 한눈에 보기

사양	Opus 4.7	Opus 4.6
가격	입력 100만 토큰당 $5, 출력 100만 토큰당 $25	입력 100만 토큰당 $5, 출력 100만 토큰당 $25
Context window	100만 토큰 (약 555,000 단어)	20만 토큰
Max output	128,000 토큰	64,000 토큰
Knowledge cutoff	2026년 1월	2025년 8월
Thinking mode	Adaptive Thinking	Extended Thinking
API model ID	`claude-opus-4-7`	`claude-opus-4-6-20260205`
사용 가능 플랫폼	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

가격은 동일하고, 컨텍스트는 더 커졌으며, 출력 길이는 두 배가 되었고, 지식은 5개월 더 최신이에요. 사양만 보면 간단한 업그레이드처럼 보여요. 이제 내부적으로 실제 개선된 점이 무엇인지 자세히 알아볼게요.

1. 에이전트 코딩(Agentic Coding): 가장 주목할 만한 개선 사항

이 부분이 Opus 4.7이 가장 빛나는 지점이에요. Anthropic은 이를 "특히 가장 어려운 작업에서 큰 발전을 보이며, 고급 소프트웨어 엔지니어링 분야에서 눈에 띄는 개선"이라고 설명해요.

구체적으로 이게 무슨 의미일까요? 세 가지를 의미해요.

Self-verification. Opus 4.7은 단순히 코드를 작성해서 돌려주는 것이 아니라, 완료를 보고하기 전에 자신의 결과물을 검증하는 방법을 고안해요. AI 에이전트가 "완료!"라고 말했지만 실제로는 코드가 컴파일되지 않았던 경험이 있다면, 이것이 왜 중요한지 아실 거예요.

Long-running task consistency. 이 모델은 복잡하고 여러 단계로 이루어진 작업을 "엄격하고 일관성 있게" 처리해요. 이전 모델들은 긴 세션에서 일관성을 잃는 경향이 있었지만, Opus 4.7은 계속해서 작업을 제대로 수행해요.

Strict instruction following. "지침에 정밀하게 주의를 기울여요." 이는 모델이 여러분의 제약 조건을 무시하거나 엉뚱한 길로 빠지는 경우가 줄어든다는 것을 의미해요.

벤치마크 수치

성능 향상은 결코 작지 않아요. 최고의 AI 기업들이 진행한 실제 코딩 벤치마크에서 Opus 4.7은 두 자릿수 개선을 보였고, 이전에는 해결할 수 없었던 문제들을 해결했어요.

CursorBench: 70% 해결 (Opus 4.6의 58% 대비) — 12포인트 상승. Cursor는 이를 "특히 자율성과 더 창의적인 추론 능력에서 의미 있는 도약"이라고 평가했어요.
Augment의 93개 과제 코딩 벤치마크: Opus 4.6 대비 13% 더 높은 해결률을 보이며, Opus 4.6이나 Sonnet 4.6 모두 해결하지 못했던 4개의 과제를 포함했어요. 더 빠른 중앙값 지연 시간(median latency)과 엄격한 지침 준수가 결합되었어요.
Notion Agent: Opus 4.6 대비 14% 더 높은 성능을 보이면서도 더 적은 토큰과 1/3 수준의 tool errors를 기록했어요. "우리의 암시적 요구 테스트(implicit-need tests)를 통과한 최초의 모델이며, 이전에는 Opus를 멈추게 했던 도구 실패에도 계속 실행해요."
Rakuten-SWE-Bench: Opus 4.6보다 3배 더 많은 프로덕션 작업을 해결했으며, Code Quality와 Test Quality에서 두 자릿수 향상을 보였어요.
Warp Terminal Bench: 이전 Claude 모델들이 실패했던 작업들을 통과했으며, Opus 4.6이 해결하지 못했던 까다로운 concurrency bug도 포함되었어요.
CodeRabbit code review: 재현율(Recall)이 10% 이상 향상되어 복잡한 PR에서 찾기 어려운 버그를 발견하는 동시에 정밀도(precision)는 안정적으로 유지되었어요. "우리 테스트 환경에서 GPT-5.4 xhigh보다 약간 더 빨라요."
Genspark Super Agent: 측정된 모델 중 가장 높은 도구 호출당 품질 비율(quality-per-tool-call ratio)을 기록했어요. 최고의 무한 루프 저항성(loop resistance)(18개 쿼리 중 1개에서 무한 루프에 빠지는 모델은 컴퓨팅 자원을 낭비하고 사용자를 차단해요), 가장 낮은 분산, 그리고 최고의 우아한 오류 복구(graceful error recovery) 능력을 보여주었어요.

이러한 것들은 인위적인 벤치마크가 아니라, 실제 제품을 출시하는 회사들의 프로덕션 워크로드예요. 패턴은 일관돼요. Opus 4.7은 더 많은 작업을 수행하고, 실수를 덜 하며, 문제가 발생했을 때 더 잘 복구해요.

2. 비전(Vision): 더 높은 해상도의 이미지 이해

Opus 4.7은 더 높은 해상도의 이미지 지원으로 "상당히 향상된 시각 기능"을 갖추고 있어요. 이는 단순히 사진을 더 선명하게 보는 것을 넘어 실용적인 사용 사례를 열어줘요.

Solve Intelligence는 "화학 구조를 읽는 것부터 복잡한 기술 다이어그램을 해석하는 것까지 multimodal understanding에서 큰 개선"을 보고했어요. 이들은 이 기능을 초안 작성, 권리 확보, 침해 탐지, 무효화 도표 작성을 포함한 생명 과학 특허 워크플로우에 사용하고 있어요.
스크린샷, 다이어그램 또는 UI 목업을 처리하는 도구를 만드는 개발자들에게 더 높은 해상도는 잘못 읽는 레이블을 줄이고, 더 나은 레이아웃 이해를 제공하며, 더 정확한 OCR과 유사한 기능을 의미해요.

3. 창의적이고 전문적인 결과물

Anthropic은 Opus 4.7이 "전문적인 작업을 완료할 때 더 세련되고 창의적이며, 더 높은 품질의 인터페이스, 슬라이드, 문서를 생성한다"고 말해요.

가장 열광적인 평가는 한 테스터로부터 나왔는데, 그는 이를 "대시보드와 데이터가 풍부한 인터페이스를 구축하는 데 있어 세계 최고의 모델"이라고 불렀어요. "디자인 감각이 정말 놀라워요. 제가 실제로 출시할 만한 선택을 해요. 이제 제 기본 작업 도구가 되었어요."

UI 컴포넌트, 슬라이드 덱 또는 문서 레이아웃을 생성하기 위해 Claude를 사용한다면, 이는 삶의 질을 향상시키는 의미 있는 개선이에요.

4. 적응형 사고(Adaptive Thinking) (Extended Thinking 대체)

Opus 4.6은 모델이 추론 과정을 명시적으로 보여주는 모드인 Extended Thinking을 사용했어요. Opus 4.7은 작업 복잡성에 따라 추론 깊이를 자동으로 조절하는 Adaptive Thinking으로 전환해요.

실질적인 차이점은 사고 모드를 수동으로 전환할 필요가 없다는 것이에요. 모델이 작업에 필요한 추론의 양을 결정하고 그에 따라 자원을 할당해요. 간단한 질문에는 빠른 답변을, 복잡한 문제에는 더 깊은 분석을 제공해요.

참고: Sonnet 4.6은 여전히 Extended Thinking을 지원해요. 눈에 보이는 추론 과정이 특별히 필요하다면, Sonnet이 여전히 좋은 선택이에요.

5. 컨텍스트 창(Context window): 5배 증가, 새로운 토크나이저

20만 토큰에서 100만 토큰으로의 도약은 사양상으로 엄청나요. 이는 대략 555,000단어로, 전체 코드베이스, 긴 문서 모음 또는 장시간의 대화 기록을 담기에 충분해요.

하지만 중요한 세부 사항이 있어요. Opus 4.7은 새로운 토크나이저를 사용해요. 동일한 텍스트라도 Opus 4.6의 토크나이저보다 더 많은 토큰을 생성해요. Anthropic은 100만 토큰 창이 약 555,000단어에 해당한다고 언급했는데, 이는 이전 토크나이저에서 100만 토큰당 약 750,000 단어였던 것과 비교돼요. 실제로는 Opus 4.6에서 1,000 토큰이 들었던 프롬프트가 Opus 4.7에서는 약 1,300 토큰이 들 수 있어요. 토큰당 가격은 변하지 않았지만, 대화당 실질 비용이 약 30% 증가해요. API를 많이 사용하는 사용자라면 예산에 반영할 가치가 있어요.

이것이 실제로 의미하는 바는 다음과 같아요:

프롬프트가 이전보다 더 많은 토큰을 소모할 거예요.
100만 토큰 창의 실질적인 "텍스트 용량"은 이전 토크나이저의 약 74만 토큰에 해당해요.
여전히 Opus 4.6의 20만 토큰에 비하면 상당한 업그레이드지만, 비용 추정을 위해 알아둘 가치가 있어요.

6. 최대 출력(Max output): 128K로 두 배 증가

Opus 4.6은 출력을 64K 토큰으로 제한했어요. Opus 4.7은 이를 128K로 두 배 늘렸어요. 이는 다음과 같은 경우에 중요해요.

긴 문서나 보고서를 한 번에 생성할 때
여러 파일에 걸친 복잡한 코드를 생성할 때
모델이 이전에 응답을 잘라내야 했던 상세한 분석 작업을 할 때

모델이 광범위한 diff나 여러 파일에 걸친 변경 사항을 생성해야 하는 에이전트 워크플로우에서 128K 출력은 실용적인 개선이에요.

7. Project Glasswing과 사이버 안전장치

Opus 4.7은 Anthropic의 Project Glasswing 프레임워크 하에 출시된 첫 번째 모델이에요. 지난주, Anthropic은 사이버 보안에 대한 AI 모델의 위험과 이점을 모두 강조했으며, 가장 강력한 모델인 Claude Mythos Preview를 널리 출시하기 전에 덜 유능한 모델에서 새로운 안전장치를 테스트하기로 약속했어요.

이것이 Opus 4.7에 의미하는 바는 다음과 같아요:

사이버 능력 감소: 훈련 중에 Anthropic은 Mythos Preview와 비교하여 사이버 보안 능력을 "차등적으로 줄이는 노력"을 실험했어요.
자동 안전장치: 이 모델에는 "금지되거나 고위험 사이버 보안 용도"를 나타내는 요청을 차단하는 탐지 기능이 내장되어 있어요.
Cyber Verification Program: 정당한 업무(취약점 연구, 모의 해킹, 레드팀)를 수행하는 보안 전문가는 Cyber Verification Program을 통해 접근 권한을 신청할 수 있어요.

이는 차등적 능력 제어(differential capability controls)에 대한 Anthropic의 첫 실전 테스트예요. 즉, 특정 영역에서 모델의 능력을 의도적으로 낮추면서 다른 영역에서는 개선하는 것이죠. Opus 4.7의 배포에서 얻는 교훈은 그들이 Mythos급 모델을 어떻게 (그리고 언제) 더 광범위하게 출시할지를 결정할 거예요.

8. 사용 가능 플랫폼 및 통합

Opus 4.7은 출시 첫날부터 모든 주요 플랫폼에서 사용할 수 있어요.

Claude API — claude-opus-4-7을 통해 직접 접속
Amazon Bedrock — anthropic.claude-opus-4-7 (리서치 프리뷰)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — 새로운 플랫폼 추가

Microsoft Foundry의 추가는 주목할 만해요. Claude Opus 모델이 출시와 동시에 Microsoft 플랫폼에서 제공되는 것은 이번이 처음이에요.

초기 테스터들의 평가

벤치마크 수치를 넘어, 기업 테스터들의 정성적인 피드백은 일관된 주제를 드러내요.

신뢰성에 대해:

Hex: "Hex가 평가한 모델 중 가장 강력해요. 데이터가 누락되었을 때 그럴듯하지만 부정확한 대체 답변을 제공하는 대신 정확하게 보고하며, Opus 4.6조차 빠지는 불일치 데이터 함정에도 저항해요."
Devin: "long-horizon autonomy를 새로운 차원으로 끌어올렸어요. 몇 시간 동안 일관성 있게 작동하며, 포기하지 않고 어려운 문제를 해결해 나가요."

효율성에 대해:

Replit: "쉽게 업그레이드를 결정할 수 있었어요. 더 낮은 비용에 동일한 품질을 제공해요. 로그 및 트레이스 분석, 버그 찾기, 수정 제안과 같은 작업을 더 효율적이고 정밀하게 수행해요."
Hex: "적은 노력을 들인 Opus 4.7이 중간 정도의 노력을 들인 Opus 4.6과 거의 동등해요." — 이는 더 적은 프롬프트 엔지니어링으로 동일한 품질의 출력을 얻을 수 있다는 의미예요.

추론에 대해:

Harvey (법률 AI): "BigLaw Bench에서 높은 노력을 기울였을 때 90.9%의 실질적 정확도와 더 나은 추론 보정 능력을 보여주었어요. 역사적으로 프론티어 모델들에게 어려웠던 과제인 양도 조항과 경영권 변경 조항을 정확하게 구별해요."
Quantium: "가장 큰 발전은 가장 중요한 곳에서 나타났어요. 즉, 추론의 깊이, 구조화된 문제 구성, 복잡한 기술 작업에서요."

개성에 대해:

Replit: "기술적인 논의 중에 반론을 제기해서 제가 더 나은 결정을 내리도록 돕는 점이 마음에 들어요. 정말 더 나은 동료 같아요."
Anthropic의 자체 설명: 이 모델은 "단순히 사용자의 의견에 동의하기보다 더 주관적인 관점"을 제시해요.

9. 누가 이미 사용하고 있으며, 무엇을 만들고 있나요?

얼리 액세스 테스터 목록은 AI 기반 개발자 도구의 유명 인사들 명단 같아요. 여러 회사가 Opus 4.7을 어떻게 활용하고 있는지 간단히 살펴볼게요.

코딩 에이전트와 IDE: Cursor, Replit, Warp, Devin 모두 자율 코딩 작업을 위한 기본 또는 최상위 모델로 Opus 4.7을 통합하고 있어요. Devin은 특히 "long-horizon autonomy"를 강조하는데, 이는 모델이 이전에는 안정적으로 불가능했던 심층 조사 작업에 몇 시간 동안 일관성 있게 작동한다는 것을 의미해요.

Code review: CodeRabbit은 복잡한 풀 리퀘스트에서 찾기 어려운 버그에 대한 재현율(recall)이 10% 이상 향상되었다는 점을 들어, Opus 4.7을 "출시 시 가장 복잡한 리뷰 작업"에 투입할 예정이에요.

엔터프라이즈 AI 플랫폼: Hebbia는 검색, 슬라이드 제작, 문서 생성을 처리하는 오케스트레이터 에이전트의 도구 호출 정확도와 계획 수립 능력이 두 자릿수 향상되는 것을 확인했어요. Genspark는 자신들이 측정한 모든 모델 중에서 가장 높은 도구 호출당 품질 비율을 기록했다고 보고해요.

법률 및 금융: Harvey는 BigLaw Bench에서 90.9%의 실질적 정확도를 보고했어요. Hex는 "Hex가 평가한 모델 중 가장 강력한 모델"이라고 칭하며, 그럴듯한 대체 답변을 환각하는 대신 누락된 데이터를 정확하게 보고하고 Opus 4.6조차 빠졌던 데이터 함정에 저항한다고 말해요. 한 핀테크 테스터는 "계획 단계에서 자신의 논리적 결함을 잡아낸다"고 설명했어요.

생명 과학: Solve Intelligence는 향상된 시각 기능을 특허 워크플로우에 사용하고 있어요. 화학 구조를 읽고, 기술 다이어그램을 해석하며, 초안 작성부터 침해 탐지까지 모든 것을 처리해요.

데이터 시각화: 한 테스터는 "대시보드와 데이터가 풍부한 인터페이스를 구축하는 데 있어 세계 최고의 모델"이라고 불렀으며, "디자인 감각이 정말 놀랍다. 내가 실제로 출시할 만한 선택을 한다"고 언급했어요.

도입의 폭이 넓다는 점이 주목할 만해요. 이것은 단지 코딩 모델이 아니라 법률, 금융, 생명 과학, 기업 자동화 전반에 걸쳐 배포되고 있어요. 공통된 특징은 지속적인 추론, 정밀한 도구 사용, 그리고 긴 세션 동안 신뢰할 수 있는 출력을 요구하는 작업들이라는 점이에요.

Opus 4.7 vs Opus 4.6: 요약

기능	Opus 4.6	Opus 4.7	변화
에이전트 코딩	강력함	상당히 강력해짐	주요 벤치마크에서 +12-14%
Self-verification	제한적	내장됨	새로운 기능
비전(Vision)	표준	더 높은 해상도	상당한 개선
창의적 결과물	좋음	"더 세련됨"	품질 개선
Context window	20만	100만	5배 증가
Max output	64K	128K	2배 증가
Thinking mode	Extended	Adaptive	깊이 자동 조절
Knowledge cutoff	2025년 8월	2026년 1월	5개월 더 최신
도구 오류 복구	실패 시 중단	계속 진행	신뢰성 대폭 향상
사이버 안전장치	없음	Project Glasswing	새로운 안전 프레임워크
가격	100만 토큰당 $5/$25	100만 토큰당 $5/$25	변경 없음

결론

Claude Opus 4.7은 Opus가 이미 잘했던 점, 즉 복잡하고 자율적인 코딩 작업을 더욱 강화하면서 비전, 출력 길이, 컨텍스트 용량에 의미 있는 개선을 더한 집중적인 업그레이드예요.

가장 큰 성과는 에이전트의 신뢰성에 있어요. self-verification, 도구 오류 복구, 그리고 장기 실행 작업의 일관성이죠. 만약 AI 기반 개발 도구를 구축하거나 일상적인 코딩 작업에 Claude 코드를 사용하고 있다면, 이러한 개선 사항은 작업 실패는 줄이고 직접 관리해야 할 일도 줄여줘요.

새로운 토크나이저와 Project Glasswing 사이버 안전장치는 비용 계산과 보안 관련 작업에 대한 모델의 행동에 모두 영향을 미치므로 이해해 둘 가치가 있어요.

이미 Opus 4.6을 사용하고 있는 개발자라면 업그레이드 방법은 간단해요. API 호출에서 claude-opus-4-6을 claude-opus-4-7로 바꾸기만 하면 돼요. 가격은 그대로, 기능은 더 강력해졌어요.

링크:

Anthropic 발표: anthropic.com/research/claude-opus-4-7
API 문서: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7: 새로운 기능과 Opus 4.6과의 비교