Claude Opus 4.6: разбор модели, тесты и сравнение

В феврале 2026 года компания Anthropic представила Claude Opus 4.6. Выход модели состоялся вскоре после того, как конкуренты представили свои новейшие разработки (GPT-5.2 была выпущена 11 декабря 2025 года, а Gemini 3 Pro — 18 ноября 2025 года).

Claude Opus 4.6 позиционируется как цифровой сотрудник, способный самостоятельно выполнять сложные задачи. Разберемся, что изменилось в этой версии и какие задачи можно выполнять с ее помощью.

Иллюстрация для статьи на тему «Claude Opus 4.6: разбор модели, тесты и сравнение»

Продукты из этой статьи:

Evolution Foundation Models

Содержание

Обзор модели и ключевые нововведения
Задачи, с которыми новая модель справляется лучше всего
Сравнение Claude Opus 4.6 и Claude Sonnet 4.6
Детальное сравнение: Opus 4.6 против GPT-5.2 и Gemini 3 Pro
Какая модель подходит для какой работы
Сильные стороны Opus 4.6
Ограничения

Обзор модели и ключевые нововведения

Контекстное окно 1 млн токенов. Разработчики добавили контекстное окно на 1 млн токенов (находится в бета-режиме). Это примерно 3000 страниц текста, которые ИИ-модель может обработать за один запрос.

Базовый лимит составляет 200 000 токенов. Для запросов, превышающих этот лимит, изначально требовалось специальное подключение бета-функции (через заголовок context-1m-2025-08-07) и действовал повышенный тариф. Однако с 13 марта 2026 года опция 1M-контекста стала общедоступной (GA) и теперь работает без бета-заголовка.

Новые инструменты и возможности. Добавили новые инструменты:

уровни усилий для баланса между глубиной рассуждений и скоростью;
адаптивное мышление;
автоматическое сжатие контекста;
поддержку длинных выводов — до 128 000 токенов.

Последнее особенно важно, если требуется генерировать большой объем кода или многостраничные документы.

Изменения в работе API. Anthropic ограничил использование функции предзаполнения (assistant prefill) в модели Opus 4.6. Теперь API возвращает ошибку 400, если массив сообщений в запросе оканчивается сообщением с ролью assistant.

Это делает процесс генерации ответа полностью зависимым от четкости и полноты пользовательского запроса (system prompt).

Качество модели. Модель демонстрирует низкие показатели дезориентации, избыточных отказов и других проблем, которые обычно усиливаются вместе с ростом возможностей.

Стоимость и доступность. Цена осталась прежней:

5 долларов за миллион входных токенов;
25 долларов за миллион выходных токенов.

Для обычных пользователей модель доступна через подписку Pro стоимостью 17 долларов в месяц или Max — от 100 долларов в месяц.

Через программный интерфейс модель интегрируется в облачные платформы и работает в составе инструментов для разработчиков.

Простой доступ к популярным ИИ-моделям

Модели уже готовы к использованию — не нужно развертывать инференс и писать код

Подробнее

Задачи, с которыми новая модель справляется лучше всего

Claude Opus 4.6 создавали с упором на сложные сценарии, где модели нужно уметь долго удерживать контекст, работать автономно и взаимодействовать с большими объемами данных. Ниже — основные направления, в которых новая версия, по данным разработчиков, демонстрирует улучшенные результаты.

Оценки моделей по работе с кодом

Программирование и работа с кодом. Opus 4.6 продумывает сложные задачи, ориентируется в больших кодовых базах и видит собственные ошибки при ревью и дебаггинге. Модель понимает архитектуру проекта в целом, может одновременно работать с десятками файлов и не дублирует логику по разным частям кода.

При работе над крупными проектами важна способность поддерживать несколько агентов одновременно. Несколько ИИ-агентов могут параллельно работать над одним проектом: например, вместе проверять большой репозиторий, где каждый берет свою часть задач. Это ускоряет проверку кода и позволяет охватывать масштабные системы.

Автономные агентские задачи. Главное отличие Claude 4.6 — фокус на автономной работе. Модель самостоятельно разбивает сложную задачу на подзадачи, выполняет их последовательно и корректирует действия при возникновении ошибок.

Например, вы можете поручить Claude собрать данные из нескольких таблиц, войти в веб-интерфейс внутренней системы, заполнить формы и отправить отчет в мессенджер. Система визуальной обратной связи теперь работает с минимальной задержкой, что позволяет модели вовремя замечать ошибки и корректировать свои действия без вашего вмешательства.

Анализ больших объемов документов. При работе с масштабными массивами информации критична способность находить нужные детали в большом контексте. Opus 4.6 справляется с этим лучше других моделей своего класса. Если загрузить отчет из 500 страниц и попросить найти конкретный факт в середине документа, модель сделает это с высокой точностью.

Финансовый анализ и исследовательская работа. Модель стала заметно сильнее в прикладных задачах: финансовый анализ, исследовательская работа, документы, таблицы и презентации. В среде Cowork Claude выполняет такие задачи автономно и параллельно, без постоянного участия пользователя.

Дарим до 20 000 бонусов

4 000 бонусов – физическим лицам, 20 000 бонусов – юридическим

Подробнее

Сравнение Claude Opus 4.6 и Claude Sonnet 4.6

Сравнение моделей

Anthropic предлагает две основные модели для профессиональной работы: флагманский Opus и Sonnet. На бенчмарке SWE-bench Verified Sonnet 4.6 набрал 79,6% против 80,8% у Opus 4.6. Разница небольшая, но стоимость сильно отличается: цена Sonnet осталась прежней — три доллара за 1 млн входных токенов и 15 — за выходные, что примерно в 1,7 раза дешевле Opus.

SWE-bench Verified — это специализированный бенчмарк для оценки ИИ-моделей в программировании. С ее помощью понимают, насколько хорошо модель умеет находить и исправлять реальные ошибки в коде на основе задач из GitHub-репозиториев.

В бенчмарке OSWorld, оценивающем управление компьютером, Sonnet показал 72,5% против 72,7% у Opus. В ряде сценариев, например, в задачах автоматизации работы с офисными приложениями, младшая модель демонстрирует результаты, сопоставимые с Opus. Самый заметный прогресс по сравнению с предшественником Sonnet 4.5 — на бенчмарке ARC-AGI-2, где Sonnet 4.6 демонстрирует значительный прирост производительности и набирает 60,4% в официальных тестах.

Sonnet 4.6 подойдет, если вам нужно:

писать и проверять код, готовить отчеты, анализировать данные и работать с документами;
автоматизировать процессы простой и средней сложности;
работать с длинным контекстом при ограниченном бюджете;
получать ответы и запускать больше итераций за меньшее время;
снизить расходы при высоком объеме запросов.

Opus 4.6 подойдет, если вам нужно:

анализировать юридические документы и проверять соответствие требованиям;
проектировать сложную архитектуру и проводить глубокий рефакторинг крупных кодовых баз;
выполнять научные и исследовательские задачи с большими массивами данных;
находить важные детали в очень больших документах и не допускать критических ошибок при анализе контекста.

Детальное сравнение: Opus 4.6 против GPT-5.2 и Gemini 3 Pro

Claude Opus 4.6 конкурирует с двумя моделями: GPT-5.2 от OpenAI и Gemini 3 Pro от Google.

Программирование. На стандартном бенчмарке SWE-Bench Claude показывает результат 80,8% и опережает GPT-5.2 с 77,2%. Модель также стабильно выдает более качественный код и лучше справляется с рефакторингом файлов. При этом GPT-5.2 показывает более высокий результат на сложной версии SWE-Bench Pro — 57,7% против 53,4% у Claude Opus 4.6.

Сравнение с Gemini показывает другую картину. В SWE-Bench Verified Claude Opus 4.6 показывает 80,8%, а Gemini 3 Pro — 80,6%. Модели практически равны в реальной промышленной разработке.

Абстрактное мышление. В тесте ARC-AGI-2, измеряющем способность решать новые задачи, Gemini 3 Pro набрал 77,1%, опередив Claude Opus 4.6 с результатом 68,8%.

Научные задачи. В тесте GPQA Diamond, оценивающем вопросы докторского уровня, Gemini 3 Pro набрал 94,3%, а Claude Opus 4.6 — 91,3%.

Работа с инструментами. Согласно официальному блогу Anthropic, Opus 4.6 «leads all other frontier models on Humanity’s Last Exam» (превосходит все другие передовые модели в тесте HLE).

Стоимость. Входные токены у GPT-5.2 стоят два с половиной доллара против пяти долларов за 1 млн, выходные — 15 против 25 долларов за 1 млн (на 40% меньше). Стоимость Gemini 3 Pro обычно также примерно в два раза ниже: около $2 за миллион входных и $12 за выходные токены против $5 и $25 у Claude соответственно. Однако точные цифры могут зависеть от выбранного провайдера и региона.

Цены постоянно меняются. Для получения актуальной информации рекомендуется обращаться к официальным сайтам вендоров.

Контекстное окно. По данным LLM Stats, Gemini 3 Pro обрабатывает до 1 048 576 входных токенов, тогда как Claude Opus 4.6 принимает до 1 млн токенов. При этом Claude генерирует более длинные ответы — до 128 000 токенов.

Какая модель подходит для какой работы

Выбор модели зависит от типа задач и приоритетов: точности, стоимости, скорости или мультимодальности.

Claude Opus 4.6 — оптимальный выбор для:

юристов и финансовых аналитиков, работающих с большими объемами документов;
исследователей, которым нужна работа с огромными базами знаний;
разработчиков сложных архитектурных решений;
задач, требующих глубокого анализа контекста и высокой точности;
проектов, где критична способность использовать внешние инструменты.

GPT-5.2 подходит для:

проектов с ограниченным бюджетом при высоком объеме запросов;
задач, требующих работы с визуальным контентом и диаграммами;
автоматизации настольных операций;
особо сложных математических и научных вопросов высшего уровня.

Gemini 3 Pro стоит выбрать, если вам нужно:

работать с мультимодальными задачами и одновременно обрабатывать текст, изображения, аудио и видео;
получать актуальные данные через интеграцию с поиском Google;
решать задачи, требующие абстрактного мышления и выявления закономерностей на основе примеров;
снижать затраты при сохранении сопоставимого уровня качества.

Сильные стороны Opus 4.6

Opus 4.6 показывает стабильные результаты в сложных сценариях и уверенно сохраняет качество работы даже при высокой нагрузке. Ниже привели ключевые сильные стороны модели.

Следование инструкциям. Модель обрабатывает сложные промпты с множеством требований и учитывает все заданные условия. Это заметно в длинных запросах свыше 2000 слов, где другие модели иногда упускают отдельные ограничения.
Качество генерируемого кода. Opus 4.6 формирует рабочие программные решения с высокой вероятностью корректного результата с первого раза. Модель подходит для задач разработки, включая создание и доработку сложных участков кода.
Стабильность в диалогах. ИИ-модель связно отвечает при длительных беседах. Opus выделяет главные мысли, обобщает предыдущую информацию и сохраняет ключевые детали.
Автономность. Модель разбивает сложные запросы на этапы, выделяет ключевые части задачи и выстраивает план действий.

Ограничения

Важно учитывать и ограничения при выборе модели под конкретные задачи.

Стоимость. При интенсивном использовании через программный интерфейс приложения расходы могут увеличиваться достаточно быстро, особенно при работе с большими объемами запросов и длинным контекстом.

Доступность в России. Anthropic закрыл доступ к сайту для российских пользователей. Получить ключ программного интерфейса с российского аккаунта невозможно, российские карты не проходят. Для использования модели требуются посредники или специализированные сервисы-агрегаторы с доступом к API.

Например, у Cloud.ru есть сервис Evolution Foundation Models с доступом к готовым коммерческим большим языковым моделям (large language models, LLM) с открытым исходным кодом (open source) через единый API, совместимый с OpenAI.

С этим сервисом не нужно разворачивать инфраструктуру или писать сложный код. Достаточно подключиться через API и сразу использовать такие функции, как рассуждение (reasoning), вызов функций (function calling) и структурированный вывод (structured output).

Как это работает? Например, финансовый департамент компании ежемесячно обрабатывает сотни договоров, актов и платежных документов. Система на базе Opus 4.6, развернутая в облачной инфраструктуре, автоматически анализирует условия, выявляет нестандартные пункты и формирует сводные отчеты для юридического отдела. Это удобнее, чем проверять каждый такой документ вручную.

Модель может обрабатывать десятки документов в одном запросе и теоретически способна помочь в выявлении внутренних противоречий и связей между ними при правильной настройке промпта.

Заключение

Тесты и практические оценки показывают, что Claude Opus 4.6 анализирует большие объемы данных, следует сложным инструкциям и стабильно выполняет многошаговые задачи. Благодаря этому модель подходит для профессиональных сценариев — в праве, финансах, исследованиях и разработке сложных систем.

Для наглядности ниже приведены ключевые технические характеристики модели:

Технические характеристики Claude Opus 4.6

Пользователям надо учитывать и ограничения модели, например, стоимость использования, лимиты на объем выходного текста и более слабая работа с визуальными данными по сравнению с некоторыми альтернативами влияют на выбор в конкретных задачах. В повседневных сценариях более легкие модели часто дают сопоставимый результат при меньших затратах.

Рынок больших языковых моделей становится сбалансированнее, так что выбор модели зависит от конкретной задачи, которую нужно выполнить вашей компании.

Продукты из этой статьи:

Evolution Foundation Models

9 июня 2026

Я физлицо

Я даю согласие на обработку моих персональных данных в соответствии с политикой обработки персональных данных и политикой конфиденциальности

Я подтверждаю свое согласие на получение рекламных и информационных сообщений в соответствии с условиями политики конфиденциальности