Технологии

Claude Opus 4.8 ловит вчетверо больше собственных ошибок в коде

Susan Hill

Anthropic обновила свою самую мощную модель до Claude Opus 4.8, и главное изменение — не более крупный мозг, а более осторожный. Компания утверждает, что модель примерно вчетверо реже предшественника пропускает без комментария изъяны в коде, который пишет сама, и охотнее указывает на те части задачи, в которых не уверена. Для того, кто доверяет реальную работу ИИ — программирование, анализ, управление компьютером, — именно эта надёжность и есть та характеристика, что действительно важна.

Слабое место нынешних ИИ-агентов — не глупость, а уверенность. Они выдают результат, который выглядит законченным и читается гладко, но тихо несёт в себе ошибки, а система, оставленная сама по себе, охотно строит следующий шаг на предыдущем промахе. Дайте агенту многошаговую задачу — и одно неверное допущение в начале способно разойтись по всему, что следует дальше, так что работа приходит с видом завершённой и оказывается незаметно сломанной. Модель, которая показывает собственные сомнения, а не замазывает их, проще контролировать, потому что человек знает, куда смотреть.

Самое наглядное доказательство — в коде. Anthropic сообщает, что Opus 4.8 пропускает заметно меньше изъянов в создаваемом коде без пометки — тот тихий баг, что всплывает в продакшене, а не на ревью. Инвестиционная фирма Bridgewater Associates, одна из первых тестировщиков, заявила, что модель по собственной инициативе указывала на проблемы и во входных данных, и в результатах анализа — то, что другие системы регулярно упускали. В работе со знаниями и в финансах опасна именно та ошибка, которую никто не ловит вовремя.

Цифры бенчмарков подкрепляют рамку, не будучи сутью. Opus 4.8, по сообщениям, набрала 69,2 процента в SWE-Bench Pro — тесте из реальных задач разработки ПО, опередив GPT-5.5 от OpenAI и Gemini 3.1 Pro от Google. По собственным измерениям Anthropic она превосходит все прежние модели Opus в тесте на программирование на каждом уровне усилий и поставила лучший результат, когда-либо зафиксированный компанией, в тесте на юридические рассуждения. Отрывы реальны, но узки, а победы в бенчмарках плохо предсказывают, как модель ведёт себя, когда целый день делает серую работу.

Вместе с моделью выходят новые инструменты. Функция в исследовательском превью внутри Claude Code, названная dynamic workflows, позволяет Opus спланировать крупную работу, а затем запустить сотни параллельных субагентов в одной сессии — она рассчитана на миграции в сотни тысяч строк кода, а мерилом служит уже имеющийся набор тестов проекта. Кроме того, новый регулятор в Claude.ai и в фирменной среде Cowork позволяет задавать, сколько усилий и сколько токенов модель тратит на ответ.

Оговорки держатся вплотную к обещаниям. Прирост надёжности во многом опирается на собственные тесты Anthropic, а цифра вроде «вчетверо реже» — это внутреннее измерение, а не независимо проверенное. Честность тоже трудно проверить снаружи: модель может объявить о своей неуверенности и всё равно ошибиться или поднять флаг не там. Dynamic workflows выходит лишь как превью, а не как готовая функция, и рассказ о скорости менее щедр, чем звучит, ведь быстрый режим стоит вдвое дороже стандартного тарифа и называется дешевле лишь по сравнению с прежними премиум-ценами.

Тем, кто смотрит на стоимость: стандартный доступ остаётся на уровне пяти долларов за миллион входных токенов и двадцати пяти за миллион выходных — как у прежней Opus. Быстрый режим работает примерно в два с половиной раза быстрее за десять и пятьдесят долларов за миллион, что делает новый регулятор усилий и инструментом бюджета, и ручкой качества. Claude Opus 4.8 доступна с этого момента через API для разработчиков Anthropic под именем claude-opus-4-8, и компания говорит, что выкатывает её повсюду в один день. Она вышла в четверг, примерно через шесть недель после Opus 4.7 — необычно короткий промежуток, последовавший за прохладным приёмом той версии и чередой конкурирующих релизов OpenAI и Google. Настоящая проверка — окажется ли модель, обученная сомневаться в себе, полезнее в повседневной работе, чем обученная блистать в рейтинге, и этот вердикт вынесут те агенты, которым люди и правда позволят работать.

Обсуждение

Имеется 0 комментариев.