Claude Opus 4.7: что нового и чем он отличается от Opus 4.6

Anthropic только что выпустила Claude Opus 4.7 — свою последнюю и самую мощную общедоступную модель. Если вы использовали Opus 4.6 для программирования, исследований или создания продуктов на базе ИИ, вот все изменения и что на практике означают новые возможности.

Ключевые характеристики в общих чертах

Характеристика	Opus 4.7	Opus 4.6
Цена	$5 / млн вх. токенов, $25 / млн вых. токенов	$5 / млн вх. токенов, $25 / млн вых. токенов
Контекстное окно	1 млн токенов (~555 тыс. слов)	200 тыс. токенов
Макс. вывод	128 тыс. токенов	64 тыс. токенов
Ограничение по знаниям	Январь 2026 г.	Август 2025 г.
Режим мышления	Adaptive Thinking	Extended Thinking
ID модели в API	`claude-opus-4-7`	`claude-opus-4-6-20260205`
Доступность	API, Bedrock, Vertex AI, Foundry	API, Bedrock, Vertex AI

Та же цена, больший контекст, удвоенная длина вывода и на пять месяцев более свежие знания. На бумаге это простое обновление. Давайте разберемся, что на самом деле улучшилось «под капотом».

1. Agentic Coding: главное улучшение

Именно здесь Opus 4.7 проявляет себя наилучшим образом. Anthropic описывает это как «заметное улучшение в продвинутой разработке программного обеспечения, с особыми успехами в самых сложных задачах».

Что это означает на практике? Три вещи:

Самопроверка (Self-verification). Opus 4.7 не просто пишет код и отдает его — модель разрабатывает способы проверки собственных результатов перед тем, как сообщить о завершении. Если вам когда-либо ИИ-агент говорил «Готово!», когда код на самом деле не компилировался, вы понимаете, почему это важно.

Согласованность при выполнении длительных задач (Long-running task consistency). Модель справляется со сложными, многоэтапными задачами «со строгостью и последовательностью». Предыдущие модели имели тенденцию терять связность на более длительных сессиях. Opus 4.7 держит курс.

Строгое следование инструкциям (Strict instruction following). Модель уделяет «пристальное внимание инструкциям», что означает меньше случаев, когда она игнорирует ваши ограничения или уходит в сторону.

Показатели бенчмарков

Прирост производительности не является незначительным. В реальных бенчмарках по программированию от ведущих ИИ-компаний Opus 4.7 показывает двузначный рост и решает проблемы, которые ранее были недостижимы:

CursorBench: 70% решенных задач (против 58% у Opus 4.6) — скачок на 12 пунктов. В Cursor называют это «значительным скачком в возможностях, особенно в части автономии и более креативного мышления».
Бенчмарк из 93 задач по программированию от Augment: +13% решенных задач по сравнению с Opus 4.6, включая 4 задачи, которые не смогли решить ни Opus 4.6, ни Sonnet 4.6. Это сочетается с более низкой средней задержкой и строгим следованием инструкциям.
Notion Agent: +14% по сравнению с Opus 4.6 при меньшем количестве токенов и в три раза меньшем числе ошибок инструментов. «Первая модель, прошедшая наши тесты на неявные потребности, и она продолжает выполнение даже при сбоях инструментов, которые раньше останавливали Opus».
Rakuten-SWE-Bench: в 3 раза больше решенных производственных задач, чем у Opus 4.6, с двузначным ростом показателей Code Quality и Test Quality.
Warp Terminal Bench: Прошла задачи, с которыми не справились предыдущие модели Claude, включая хитрую ошибку параллелизма, которую Opus 4.6 не смог устранить.
CodeRabbit code review: Recall улучшился более чем на 10%, выявляя труднообнаружимые ошибки в сложных PR, в то время как precision осталась стабильной. «Немного быстрее, чем GPT-5.4 xhigh на нашем наборе тестов».
Genspark Super Agent: Самое высокое измеренное соотношение качества к количеству вызовов инструментов. Лучшая устойчивость к зацикливанию (модель, которая зацикливается на одном из 18 запросов, тратит вычислительные ресурсы и блокирует пользователей), наименьшая дисперсия и лучшее корректное восстановление после ошибок.

Это не синтетические бенчмарки — это производственные нагрузки от компаний, поставляющих реальные продукты. Картина последовательна: Opus 4.7 выполняет больше работы, делает меньше ошибок и лучше восстанавливается, когда что-то идет не так.

2. Vision: распознавание изображений в более высоком разрешении

У Opus 4.7 «существенно лучшее распознавание изображений (vision)» с поддержкой изображений более высокого разрешения. Речь идет не просто о более четком восприятии картинок — это открывает практические сценарии использования:

Solve Intelligence сообщает о «значительных улучшениях в мультимодальном понимании, от чтения химических структур до интерпретации сложных технических диаграмм». Они используют это для рабочих процессов в области наук о жизни, связанных с патентами, включая составление заявок, делопроизводство, выявление нарушений и оспаривание действительности.
Для разработчиков, создающих инструменты для обработки скриншотов, диаграмм или макетов пользовательского интерфейса, более высокое разрешение означает меньше неверно прочитанных меток, лучшее понимание компоновки и более точные возможности, подобные OCR.

3. Креативные и профессиональные результаты

Anthropic заявляет, что Opus 4.7 «более изящен и креативен при выполнении профессиональных задач, создавая более качественные интерфейсы, слайды и документы».

Самый восторженный отзыв пришел от тестировщика, который назвал его «лучшей моделью в мире для создания дашбордов и интерфейсов с большим количеством данных. Дизайнерский вкус по-настоящему удивляет — модель делает выбор, который я бы действительно использовал в продакшене. Теперь это мой основной инструмент на каждый день».

Если вы используете Claude для генерации компонентов UI, презентаций или макетов документов, это значительное улучшение качества жизни.

4. Adaptive Thinking (заменяет Extended Thinking)

Opus 4.6 использовал Extended Thinking — режим, в котором модель явно показывает свою цепочку рассуждений. Opus 4.7 переходит на Adaptive Thinking, который автоматически регулирует глубину рассуждений в зависимости от сложности задачи.

Практическая разница: вам не нужно вручную переключать режимы мышления. Модель сама решает, сколько рассуждений требуется для задачи, и выделяет соответствующие ресурсы. Простые вопросы получают быстрые ответы; сложные проблемы — более глубокий анализ.

Примечание: Sonnet 4.6 по-прежнему поддерживает Extended Thinking. Если вам нужны именно видимые цепочки рассуждений, Sonnet остается подходящим вариантом.

5. Контекстное окно: в 5 раз больше, новый токенизатор

Скачок с 200 тыс. до 1 млн токенов на бумаге выглядит огромным. Это примерно 555 000 слов — достаточно, чтобы вместить целые кодовые базы, большие коллекции документов или длинные истории разговоров.

Однако есть важная деталь: Opus 4.7 использует новый tokenizer. Один и тот же текст производит больше токенов, чем с токенизатором Opus 4.6. Anthropic отмечает, что окно в 1 млн токенов соответствует примерно 555 тыс. слов, по сравнению с обычными ~750 тыс. слов на миллион токенов со старым токенизатором. На практике промпт, который стоил вам 1000 токенов с Opus 4.6, теперь может стоить около 1300 токенов с Opus 4.7. Цена за токен не изменилась, но ваша эффективная стоимость за диалог возрастает примерно на 30%. Это стоит учесть при планировании бюджета, если вы активно используете API.

Что это означает на практике:

Ваши промпты будут потреблять больше токенов, чем раньше.
Эффективная «текстовая емкость» окна в 1 млн токенов примерно эквивалентна ~740 тыс. токенов на старом токенизаторе.
Это все еще значительное улучшение по сравнению с 200 тыс. у Opus 4.6, но об этом стоит помнить при оценке затрат.

6. Максимальный вывод: увеличен вдвое до 128 тыс.

Opus 4.6 ограничивал вывод 64 тыс. токенов. Opus 4.7 удваивает этот лимит до 128 тыс. Это важно для:

Генерации длинных документов или отчетов за один проход.
Комплексной генерации кода, охватывающей несколько файлов.
Детальных аналитических задач, где модели ранее приходилось усекать свой ответ.

Для агентных рабочих процессов, где модели необходимо создавать обширные diff-ы или изменения в нескольких файлах, вывод в 128 тыс. токенов является практическим улучшением.

7. Project Glasswing и меры кибербезопасности

Opus 4.7 — первая модель, выпущенная в рамках фреймворка Anthropic Project Glasswing. На прошлой неделе Anthropic подчеркнула как риски, так и преимущества ИИ-моделей для кибербезопасности и обязалась тестировать новые меры защиты на менее мощных моделях перед широким выпуском своей самой мощной модели, Claude Mythos Preview.

Что это означает для Opus 4.7:

Сниженные кибер-возможности: Во время обучения Anthropic «экспериментировала с попытками дифференцированно снизить» возможности в области кибербезопасности по сравнению с Mythos Preview.
Автоматические меры защиты: Модель включает встроенное обнаружение, которое блокирует запросы, указывающие на «запрещенное или высокорискованное использование в сфере кибербезопасности».
Программа верификации в сфере кибербезопасности: Профессионалы в области безопасности, выполняющие законную работу (vulnerability research, pentesting, red-teaming), могут подать заявку на доступ через Cyber Verification Program.

Это первый реальный тест Anthropic по дифференциальному контролю возможностей — намеренному снижению способностей модели в определенных областях при одновременном их улучшении в других. То, что они узнают из развертывания Opus 4.7, определит, как (и когда) они будут более широко выпускать модели класса Mythos.

8. Доступность и интеграция

Opus 4.7 доступен на всех основных платформах с первого дня:

Claude API — прямой доступ через claude-opus-4-7
Amazon Bedrock — anthropic.claude-opus-4-7 (research preview)
Google Cloud Vertex AI — claude-opus-4-7
Microsoft Foundry — новое добавление к платформам

Добавление Microsoft Foundry примечательно — это первый раз, когда модель Claude Opus доступна на платформе Microsoft с момента запуска.

Что говорят первые тестировщики

Помимо цифр бенчмарков, качественные отзывы от корпоративных тестировщиков выявляют постоянные темы:

О надежности:

Hex: «Самая сильная модель, которую оценивала Hex. Она корректно сообщает об отсутствующих данных, вместо того чтобы предоставлять правдоподобные, но неверные запасные варианты, и противостоит ловушкам с противоречивыми данными, в которые попадает даже Opus 4.6».
Devin: «Поднимает долговременную автономию на новый уровень. Модель работает слаженно часами, пробиваясь через сложные проблемы, а не сдаваясь».

Об эффективности:

Replit: «Простое решение для обновления. То же качество при меньших затратах — более эффективна и точна в таких задачах, как анализ логов и трассировок, поиск ошибок и предложение исправлений».
Hex: «Opus 4.7 с низкими усилиями примерно эквивалентен Opus 4.6 со средними усилиями», — что означает, что вы получаете то же качество вывода при меньшем инжиниринге промптов.

О рассуждениях:

Harvey (юридический ИИ): «90.9% точности по существу на BigLaw Bench при высоких усилиях с лучшей калибровкой рассуждений. Модель правильно различает положения о передаче прав и положения о смене контроля — задача, которая исторически была сложной для передовых моделей».
Quantium: «Наибольший прирост проявился там, где это важнее всего: глубина рассуждений, структурированное формулирование проблем и сложная техническая работа».

О "личности":

Replit: «Мне нравится, как модель возражает во время технических дискуссий, чтобы помочь мне принимать лучшие решения. Это действительно ощущается как работа с лучшим коллегой».
Собственное описание Anthropic: Модель привносит «более выраженную точку зрения, а не просто соглашается с пользователем».

9. Кто уже ее использует — и что они создают

Список компаний с ранним доступом выглядит как список "кто есть кто" в мире ИИ-инструментов для разработчиков. Вот краткий обзор того, как разные компании используют Opus 4.7:

Агенты для программирования и IDE: Cursor, Replit, Warp и Devin все интегрируют Opus 4.7 в качестве своей основной или топовой модели для автономных задач программирования. Devin особенно выделяет «долговременную автономию» — модель работает слаженно часами над глубокими исследованиями, что ранее было невозможно с достаточной надежностью.

Ревью кода: CodeRabbit планирует использовать Opus 4.7 для своей «самой тяжелой работы по ревью с момента запуска», ссылаясь на улучшение recall на 10%+ для труднообнаружимых ошибок в сложных pull request.

Корпоративные ИИ-платформы: Hebbia увидела двузначный рост точности вызовов инструментов и планирования для агентов-оркестраторов, выполняющих извлечение данных, создание слайдов и генерацию документов. Genspark сообщает о самом высоком соотношении качества к количеству вызовов инструментов, которое они измеряли среди всех моделей.

Юриспруденция и финансы: Harvey сообщает о 90.9% точности по существу на BigLaw Bench. Hex называет ее «самой сильной моделью, которую оценивала Hex» — она корректно сообщает об отсутствующих данных вместо того, чтобы галлюцинировать правдоподобные запасные варианты, и противостоит ловушкам данных, в которые попадал даже Opus 4.6. Тестировщик из финтеха описывает, как модель замечает «свои собственные логические ошибки на этапе планирования».

Науки о жизни: Solve Intelligence использует улучшенные возможности vision для работы с патентами — чтение химических структур, интерпретация технических диаграмм и обработка всего, от составления заявок до выявления нарушений.

Визуализация данных: Один из тестировщиков назвал ее «лучшей моделью в мире для создания дашбордов и интерфейсов с большим количеством данных», отметив, что «дизайнерский вкус по-настоящему удивляет — модель делает выбор, который я бы действительно использовал в продакшене».

Широта внедрения примечательна. Это не просто модель для программирования — ее развертывают в юриспруденции, финансах, науках о жизни и корпоративной автоматизации. Общая нить: задачи, требующие продолжительных рассуждений, точного использования инструментов и надежного вывода на протяжении длительных сессий.

Opus 4.7 в сравнении с Opus 4.6: Итоги

Возможность	Opus 4.6	Opus 4.7	Изменение
Agentic coding	Сильно	Значительно сильнее	+12-14% в основных бенчмарках
Самопроверка	Ограничено	Встроено	Новая возможность
Vision	Стандартно	Более высокое разрешение	Существенное улучшение
Креативный вывод	Хорошо	"Более изящно"	Улучшение качества
Контекстное окно	200 тыс.	1 млн	В 5 раз больше
Макс. вывод	64 тыс.	128 тыс.	В 2 раза больше
Режим мышления	Extended	Adaptive	Автонастройка глубины
Ограничение по знаниям	Август 2025 г.	Январь 2026 г.	На 5 месяцев свежее
Восстановление после ошибок	Останавливается при сбое	Продолжает работу	Значительный рост надежности
Меры кибербезопасности	Нет	Project Glasswing	Новый фреймворк безопасности
Цена	$5/$25 за млн токенов	$5/$25 за млн токенов	Без изменений

Итог

Claude Opus 4.7 — это целенаправленное обновление, которое удваивает сильные стороны Opus — сложную, автономную работу с кодом — при этом добавляя значительные улучшения в vision, длину вывода и объем контекста.

Самые большие выигрыши — в надежности агентных систем: самопроверка, восстановление после ошибок инструментов и согласованность при выполнении длительных задач. Если вы создаете инструменты для разработки на базе ИИ или используете Claude для ежедневной работы с кодом, эти улучшения напрямую приводят к меньшему количеству неудачных задач и меньшей необходимости в контроле.

Новый tokenizer и меры кибербезопасности в рамках Project Glasswing стоит изучить, так как они влияют как на расчеты стоимости, так и на поведение модели в задачах, связанных с безопасностью.

Для разработчиков, уже использующих Opus 4.6, путь обновления прост — замените claude-opus-4-6 на claude-opus-4-7 в ваших API-вызовах. Та же цена, больше возможностей.

Ссылки:

Анонс от Anthropic: anthropic.com/research/claude-opus-4-7
Документация API: platform.claude.com/docs
Project Glasswing: anthropic.com/glasswing
Cyber Verification Program: claude.com/form/cyber-use-case

Claude Opus 4.7: Что нового и сравнение с Opus 4.6