Claude Opus 4.7: Có Gì Mới và So Sánh với Opus 4.6

Anthropic vừa phát hành Claude Opus 4.7 — mô hình mới nhất và có năng lực cao nhất của họ được cung cấp rộng rãi. Nếu bạn đã và đang sử dụng Opus 4.6 để lập trình, nghiên cứu hoặc xây dựng các sản phẩm sử dụng AI, đây là tất cả những thay đổi và ý nghĩa thực tế của các khả năng mới.

Tổng quan Thông số Kỹ thuật Chính

Thông số	Opus 4.7	Opus 4.6
Giá cả	$5 / M input, $25 / M output	$5 / M input, $25 / M output
Context window	1M token (~555K từ)	200K token
Max output	128K token	64K token
Giới hạn kiến thức	Tháng 1 năm 2026	Tháng 8 năm 2025
Chế độ suy nghĩ	Adaptive Thinking	Extended Thinking
API model ID	`claude-opus-4-7`	`claude-opus-4-6-20260205`
Nền tảng hỗ trợ	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

Cùng mức giá, context lớn hơn, độ dài output gấp đôi, và kiến thức mới hơn năm tháng. Trên lý thuyết, đây là một bản nâng cấp đơn giản. Hãy cùng tìm hiểu sâu hơn về những cải tiến thực sự bên trong.

1. Agentic Coding: Cải Tiến Nổi Bật Nhất

Đây là lĩnh vực mà Opus 4.7 tỏa sáng nhất. Anthropic mô tả nó là "một cải tiến đáng kể trong kỹ thuật phần mềm tiên tiến, với những bước tiến đặc biệt trong các tác vụ khó nhất."

Điều này có nghĩa là gì trong thực tế? Ba điều:

Tự xác minh (Self-verification). Opus 4.7 không chỉ viết code và trả về — nó còn tự nghĩ ra cách xác minh kết quả của chính mình trước khi báo cáo hoàn thành. Nếu bạn đã từng gặp trường hợp một agent AI nói "done!" trong khi code thực sự không thể biên dịch, bạn sẽ hiểu tại sao điều này lại quan trọng.

Tính nhất quán trong tác vụ dài hơi. Mô hình xử lý các tác vụ phức tạp, nhiều bước "một cách nghiêm ngặt và nhất quán." Các mô hình trước đây có xu hướng mất mạch lạc trong các phiên làm việc dài hơn. Opus 4.7 vẫn giữ được sự tập trung.

Tuân thủ hướng dẫn nghiêm ngặt. Nó "chú ý chính xác đến các hướng dẫn" — nghĩa là ít trường hợp mô hình bỏ qua các ràng buộc của bạn hoặc đi chệch hướng hơn.

Các Con Số Benchmark

Sự cải thiện về hiệu suất không hề nhỏ. Trên các benchmark lập trình trong thế giới thực từ các công ty AI hàng đầu, Opus 4.7 cho thấy sự cải thiện hai con số và giải quyết được những vấn đề trước đây nằm ngoài tầm với:

CursorBench: 70% giải quyết được (so với Opus 4.6 là 58%) — một bước nhảy 12 điểm. Cursor gọi đây là "một bước nhảy vọt có ý nghĩa về năng lực, đặc biệt là về khả năng tự chủ và suy luận sáng tạo hơn."
Benchmark lập trình 93 tác vụ của Augment: +13% khả năng giải quyết so với Opus 4.6, bao gồm 4 tác vụ mà cả Opus 4.6 và Sonnet 4.6 đều không giải quyết được. Kết hợp với latency trung bình nhanh hơn và tuân thủ hướng dẫn nghiêm ngặt.
Notion Agent: +14% so với Opus 4.6 với ít token hơn và chỉ bằng một phần ba số tool errors. "Mô hình đầu tiên vượt qua các bài kiểm tra nhu cầu ngầm của chúng tôi, và nó tiếp tục thực thi ngay cả khi gặp lỗi tool mà trước đây đã làm Opus dừng lại."
Rakuten-SWE-Bench: Giải quyết nhiều tác vụ sản phẩm hơn gấp 3 lần so với Opus 4.6, với sự cải thiện hai con số về Chất lượng Code và Chất lượng Test.
Warp Terminal Bench: Vượt qua các tác vụ mà các mô hình Claude trước đây đã thất bại, bao gồm cả một lỗi concurrency khó mà Opus 4.6 không thể giải quyết.
CodeRabbit code review: Recall cải thiện hơn 10%, phát hiện ra các lỗi khó tìm trong các PR phức tạp trong khi precision vẫn ổn định. "Nhanh hơn một chút so với GPT-5.4 xhigh trên hệ thống của chúng tôi."
Genspark Super Agent: Tỷ lệ chất lượng trên mỗi lần gọi tool cao nhất từng được đo lường. Khả năng chống lặp (loop resistance) tốt nhất (một mô hình lặp vô hạn trong 1/18 truy vấn sẽ lãng phí tài nguyên và chặn người dùng), phương sai thấp nhất, và khả năng phục hồi lỗi duyên dáng nhất (graceful error recovery).

Đây không phải là các benchmark nhân tạo — chúng là các workload trong môi trường sản phẩm thực tế từ các công ty đang vận hành sản phẩm thật. Mô hình chung là nhất quán: Opus 4.7 làm được nhiều việc hơn, mắc ít lỗi hơn và phục hồi tốt hơn khi có sự cố.

2. Vision: Khả Năng Hiểu Hình Ảnh Độ Phân Giải Cao Hơn

Opus 4.7 có "khả năng vision tốt hơn đáng kể" với hỗ trợ hình ảnh độ phân giải cao hơn. Điều này không chỉ là về việc nhìn hình ảnh rõ hơn — nó mở ra các trường hợp sử dụng thực tế:

Solve Intelligence báo cáo "những cải tiến lớn trong hiểu biết đa phương thức (multimodal understanding), từ việc đọc cấu trúc hóa học đến giải thích các sơ đồ kỹ thuật phức tạp." Họ đang sử dụng nó cho các quy trình bằng sáng chế trong lĩnh vực khoa học sự sống bao gồm soạn thảo, truy tố, phát hiện vi phạm và lập biểu đồ vô hiệu.
Đối với các nhà phát triển đang xây dựng các công cụ xử lý ảnh chụp màn hình, sơ đồ, hoặc mockup UI, độ phân giải cao hơn có nghĩa là ít đọc sai nhãn hơn, hiểu bố cục tốt hơn, và khả năng giống OCR chính xác hơn.

3. Kết Quả Sáng Tạo và Chuyên Nghiệp

Anthropic cho biết Opus 4.7 "tinh tế và sáng tạo hơn khi hoàn thành các tác vụ chuyên nghiệp, tạo ra các giao diện, slide, và tài liệu chất lượng cao hơn."

Sự tán thành nhiệt tình nhất đến từ một người thử nghiệm đã gọi nó là "mô hình tốt nhất thế giới để xây dựng dashboard và các giao diện giàu dữ liệu. Gu thiết kế thực sự đáng ngạc nhiên — nó đưa ra những lựa chọn mà tôi thực sự sẽ sử dụng trong sản phẩm. Giờ đây nó là công cụ mặc định hàng ngày của tôi."

Nếu bạn sử dụng Claude để tạo các thành phần UI, bộ slide, hoặc bố cục tài liệu, đây là một cải tiến đáng kể về chất lượng trải nghiệm.

4. Adaptive Thinking (Thay Thế Extended Thinking)

Opus 4.6 sử dụng Extended Thinking — một chế độ mà mô hình hiển thị rõ ràng chuỗi suy luận của mình. Opus 4.7 chuyển sang Adaptive Thinking, chế độ này tự động điều chỉnh độ sâu suy luận dựa trên độ phức tạp của tác vụ.

Sự khác biệt thực tế: bạn không cần phải bật/tắt các chế độ suy nghĩ theo cách thủ công. Mô hình tự quyết định một tác vụ cần bao nhiêu suy luận và phân bổ tương ứng. Các câu hỏi đơn giản sẽ nhận được câu trả lời nhanh chóng; các vấn đề phức tạp sẽ được phân tích sâu hơn.

Lưu ý: Sonnet 4.6 vẫn hỗ trợ Extended Thinking. Nếu bạn đặc biệt cần các chuỗi suy luận có thể nhìn thấy, Sonnet vẫn là lựa chọn.

5. Context Window: Lớn Hơn 5 Lần, Tokenizer Mới

Bước nhảy từ 200K lên 1M token là rất lớn trên lý thuyết. Con số này tương đương khoảng 555.000 từ — đủ để chứa toàn bộ codebase, các bộ sưu tập tài liệu dài, hoặc lịch sử hội thoại kéo dài.

Tuy nhiên, có một chi tiết quan trọng: Opus 4.7 sử dụng một tokenizer mới. Cùng một đoạn văn bản sẽ tạo ra nhiều token hơn so với tokenizer của Opus 4.6. Anthropic lưu ý rằng context window 1M tương ứng với khoảng 555K từ, so với mức thông thường ~750K từ trên một triệu token với tokenizer cũ. Trong thực tế, một prompt tốn 1.000 token với Opus 4.6 giờ đây có thể tốn khoảng 1.300 token với Opus 4.7. Giá mỗi token không thay đổi, nhưng chi phí hiệu quả trên mỗi cuộc trò chuyện của bạn tăng khoảng 30%. Đây là điều đáng cân nhắc trong ngân sách của bạn nếu bạn là người dùng API thường xuyên.

Điều này có nghĩa là gì trong thực tế:

Prompt của bạn sẽ tiêu tốn nhiều token hơn trước
"Sức chứa văn bản" hiệu quả của context window 1M gần tương đương với ~740K token trên tokenizer cũ
Vẫn là một nâng cấp đáng kể từ 200K của Opus 4.6, nhưng đáng để lưu ý để ước tính chi phí

6. Max Output: Tăng Gấp Đôi Lên 128K

Opus 4.6 giới hạn output ở 64K token. Opus 4.7 tăng gấp đôi con số đó lên 128K. Điều này quan trọng cho:

Tạo các tài liệu hoặc báo cáo dài trong một lần chạy
Tạo code phức tạp trải dài trên nhiều tệp
Các tác vụ phân tích chi tiết mà trước đây mô hình phải cắt ngắn phản hồi của mình

Đối với các quy trình agentic, nơi mô hình cần tạo ra các diff lớn hoặc các thay đổi trên nhiều tệp, output 128K là một cải tiến thực tế.

7. Project Glasswing và Các Biện Pháp An Toàn Mạng

Opus 4.7 là mô hình đầu tiên được phát hành theo khuôn khổ Project Glasswing của Anthropic. Tuần trước, Anthropic đã nhấn mạnh cả rủi ro và lợi ích của các mô hình AI đối với an ninh mạng, và cam kết thử nghiệm các biện pháp bảo vệ mới trên các mô hình ít năng lực hơn trước khi phát hành rộng rãi mô hình mạnh nhất của họ, Claude Mythos Preview.

Điều này có ý nghĩa gì đối với Opus 4.7:

Giảm khả năng về an ninh mạng: Trong quá trình huấn luyện, Anthropic "đã thử nghiệm các nỗ lực nhằm giảm một cách có chọn lọc" các khả năng liên quan đến an ninh mạng so với Mythos Preview.
Biện pháp bảo vệ tự động: Mô hình bao gồm tính năng phát hiện tích hợp để chặn các yêu cầu cho thấy "việc sử dụng cho mục đích an ninh mạng bị cấm hoặc có rủi ro cao."
Chương trình Xác minh An ninh mạng (Cyber Verification Program): Các chuyên gia bảo mật thực hiện công việc hợp pháp (nghiên cứu lỗ hổng, pentesting, red-teaming) có thể đăng ký để được cấp quyền truy cập thông qua Cyber Verification Program.

Đây là thử nghiệm thực tế đầu tiên của Anthropic về việc kiểm soát năng lực có chọn lọc — cố tình làm cho một mô hình kém năng lực hơn trong các lĩnh vực cụ thể trong khi cải thiện nó ở các lĩnh vực khác. Những gì họ học được từ việc triển khai Opus 4.7 sẽ định hình cách thức (và thời điểm) họ phát hành các mô hình cấp Mythos một cách rộng rãi hơn.

8. Mức Độ Sẵn Có và Tích Hợp

Opus 4.7 có mặt trên tất cả các nền tảng lớn ngay từ ngày đầu tiên:

Claude API — truy cập trực tiếp qua claude-opus-4-7
Amazon Bedrock — anthropic.claude-opus-4-7 (bản xem trước nghiên cứu)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — bổ sung nền tảng mới

Việc bổ sung Microsoft Foundry là đáng chú ý — đây là lần đầu tiên một mô hình Claude Opus có mặt trên nền tảng của Microsoft ngay khi ra mắt.

Những Người Dùng Thử Đầu Tiên Nói Gì

Ngoài các con số benchmark, phản hồi định tính từ những người thử nghiệm doanh nghiệp cho thấy các chủ đề nhất quán:

Về độ tin cậy:

Hex: "Mô hình mạnh nhất mà Hex từng đánh giá. Nó báo cáo chính xác khi dữ liệu bị thiếu thay vì cung cấp các giải pháp thay thế có vẻ hợp lý nhưng không chính xác, và nó chống lại các bẫy dữ liệu không nhất quán mà ngay cả Opus 4.6 cũng mắc phải."
Devin: "Đưa khả năng tự chủ dài hạn lên một tầm cao mới. Nó hoạt động mạch lạc trong nhiều giờ, vượt qua các vấn đề khó khăn thay vì bỏ cuộc."

Về hiệu quả:

Replit: "Một quyết định nâng cấp dễ dàng. Chất lượng tương đương với chi phí thấp hơn — hiệu quả và chính xác hơn trong các tác vụ như phân tích log và trace, tìm lỗi và đề xuất sửa chữa."
Hex: "Opus 4.7 với nỗ lực thấp gần tương đương với Opus 4.6 với nỗ lực trung bình." — có nghĩa là bạn nhận được kết quả chất lượng tương tự với ít prompt engineering hơn.

Về khả năng suy luận:

Harvey (AI pháp lý): "Độ chính xác về nội dung đạt 90.9% trên BigLaw Bench với nỗ lực cao và hiệu chỉnh suy luận (reasoning calibration) tốt hơn. Nó phân biệt chính xác các điều khoản chuyển nhượng khỏi các điều khoản thay đổi quyền kiểm soát, một tác vụ mà các mô hình tiên tiến trong lịch sử thường gặp khó khăn."
Quantium: "Những cải tiến lớn nhất xuất hiện ở những nơi quan trọng nhất: chiều sâu suy luận, lập khung vấn đề có cấu trúc, và công việc kỹ thuật phức tạp."

Về tính cách:

Replit: "Tôi thích cách nó phản biện trong các cuộc thảo luận kỹ thuật để giúp tôi đưa ra quyết định tốt hơn. Cảm giác thực sự giống như một đồng nghiệp tốt hơn."
Mô tả của chính Anthropic: Mô hình mang đến "một quan điểm có chính kiến hơn, thay vì chỉ đơn giản đồng ý với người dùng."

9. Ai Đã Sử Dụng Nó — Và Họ Đang Xây Dựng Gì

Danh sách những người thử nghiệm sớm trông như một danh sách "ai là ai" trong lĩnh vực công cụ phát triển sử dụng AI. Dưới đây là cái nhìn nhanh về cách các công ty khác nhau đang vận dụng Opus 4.7:

Coding agent và IDE: Cursor, Replit, Warp, và Devin đều đang tích hợp Opus 4.7 làm mô hình chính hoặc mô hình cao cấp nhất cho các tác vụ lập trình tự chủ. Devin đặc biệt nhấn mạnh "khả năng tự chủ dài hạn" — mô hình hoạt động mạch lạc trong nhiều giờ cho các công việc điều tra sâu mà trước đây không thể thực hiện một cách đáng tin cậy.

Code review: CodeRabbit đang sắp xếp Opus 4.7 cho "công việc review nặng nhất của họ khi ra mắt," trích dẫn sự cải thiện 10%+ về recall đối với các lỗi khó phát hiện trong các pull request phức tạp.

Nền tảng AI doanh nghiệp: Hebbia ghi nhận sự tăng vọt hai con số về độ chính xác của tool call và khả năng lập kế hoạch cho các orchestrator agent xử lý việc retrieval, tạo slide, và tạo tài liệu. Genspark báo cáo tỷ lệ chất lượng trên mỗi lần gọi tool cao nhất mà họ từng đo lường trên bất kỳ mô hình nào.

Pháp lý và tài chính: Harvey báo cáo độ chính xác về nội dung đạt 90.9% trên BigLaw Bench. Hex gọi nó là "mô hình mạnh nhất mà Hex từng đánh giá" — nó báo cáo chính xác dữ liệu bị thiếu thay vì hallucinating ra các giải pháp thay thế có vẻ hợp lý, và chống lại các bẫy dữ liệu mà ngay cả Opus 4.6 cũng mắc phải. Một người thử nghiệm trong lĩnh vực fintech mô tả nó có khả năng nắm bắt "các lỗi logic của chính nó trong giai đoạn lập kế hoạch."

Khoa học sự sống (Life sciences): Solve Intelligence đang sử dụng khả năng vision cải tiến cho các quy trình bằng sáng chế — đọc cấu trúc hóa học, giải thích sơ đồ kỹ thuật, và xử lý mọi thứ từ soạn thảo đến phát hiện vi phạm.

Trực quan hóa dữ liệu (Data visualization): Một người thử nghiệm đã gọi nó là "mô hình tốt nhất thế giới để xây dựng dashboard và các giao diện giàu dữ liệu," lưu ý rằng "gu thiết kế thực sự đáng ngạc nhiên — nó đưa ra những lựa chọn mà tôi thực sự sẽ sử dụng trong sản phẩm."

Phạm vi áp dụng rộng rãi là rất đáng chú ý. Đây không chỉ là một mô hình lập trình — nó đang được triển khai trên các lĩnh vực pháp lý, tài chính, khoa học sự sống, và tự động hóa doanh nghiệp. Điểm chung: các tác vụ đòi hỏi sự suy luận bền bỉ, sử dụng tool chính xác, và kết quả đáng tin cậy trong các phiên làm việc dài.

Opus 4.7 vs Opus 4.6: Tóm Tắt

Khả năng	Opus 4.6	Opus 4.7	Thay đổi
Agentic coding	Mạnh	Mạnh hơn đáng kể	+12-14% trên các benchmark lớn
Tự xác minh	Hạn chế	Tích hợp sẵn	Khả năng mới
Vision	Tiêu chuẩn	Độ phân giải cao hơn	Cải tiến đáng kể
Kết quả sáng tạo	Tốt	"Tinh tế hơn"	Cải thiện chất lượng
Context window	200K	1M	Lớn hơn 5 lần
Max output	64K	128K	Lớn hơn 2 lần
Chế độ suy nghĩ	Extended	Adaptive	Tự động điều chỉnh độ sâu
Giới hạn kiến thức	Tháng 8, 2025	Tháng 1, 2026	Mới hơn 5 tháng
Phục hồi lỗi tool	Dừng khi có lỗi	Vượt qua lỗi	Cải thiện lớn về độ tin cậy
Biện pháp an toàn mạng	Không có	Project Glasswing	Khung an toàn mới
Giá cả	$5/$25 mỗi M token	$5/$25 mỗi M token	Không đổi

Kết Luận

Claude Opus 4.7 là một bản nâng cấp tập trung, củng cố thêm những gì Opus đã làm tốt — công việc lập trình phức tạp, tự chủ — đồng thời bổ sung những cải tiến có ý nghĩa cho vision, độ dài output, và dung lượng context.

Những thắng lợi lớn nhất nằm ở độ tin cậy agentic: tự xác minh, phục hồi lỗi tool, và tính nhất quán trong các tác vụ dài hơi. Nếu bạn đang xây dựng các công cụ phát triển sử dụng AI hoặc sử dụng Claude để lập trình hàng ngày, những cải tiến này trực tiếp giúp giảm thiểu các tác vụ thất bại và ít phải giám sát (babysitting) hơn.

Tokenizer mới và các biện pháp bảo vệ an ninh mạng của Project Glasswing là những điểm đáng để tìm hiểu, vì chúng ảnh hưởng đến cả việc tính toán chi phí và hành vi của mô hình đối với các tác vụ liên quan đến bảo mật.

Đối với các nhà phát triển đang dùng Opus 4.6, lộ trình nâng cấp rất đơn giản — chỉ cần đổi claude-opus-4-6 thành claude-opus-4-7 trong các lệnh gọi API của bạn. Cùng mức giá, nhiều khả năng hơn.

Các liên kết:

Thông báo của Anthropic: anthropic.com/research/claude-opus-4-7
Tài liệu API: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7: Có gì mới và so sánh với Opus 4.6