Технологии

На два пункта ниже Opus 4.6, в пять раз дешевле: Gemini 3.5 Flash меняет расчёт

Susan Hill

Google выпустил Gemini 3.5 Flash в понедельник по цене 1,50 доллара за миллион входных токенов и 9 долларов за миллион выходных. Новая модель удерживает более 280 выходных токенов в секунду, сохраняет то же миллионное окно контекста, что и предшественник, и встаёт в Artificial Analysis Intelligence Index на 55 пунктов, на девять выше Gemini 3 Flash. К утру вторника тред на r/Anthropic уже поставил график рядом с Claude Opus 4.6 и задал вопрос, вокруг которого рынок ходит шесть месяцев: с какого момента двухпунктовое преимущество в бенчмарке перестаёт стоить пятикратной цены?

Intelligence Index сводит корзину публичных тестов — рассуждение, знание, программирование, математика и выполнение агентских задач — в единый балл от 1 до 100. Claude Opus 4.6 в режиме адаптивного рассуждения держится на 57. Gemini 3.5 Flash, выпущенный 19 мая, держится на 55. Прыжок на девять пунктов между версиями — это самый большой шаг, который Flash когда-либо делал в одном поколении, достаточный для того, чтобы новая модель сравнялась с предыдущим Sonnet от Anthropic по чистому интеллекту за долю стоимости Sonnet.

Формулировка «умнее», которую использовал тред Reddit, преувеличивает разрыв в пользу Flash. На чистом Intelligence Index Opus 4.6 всё ещё впереди на два пункта. График, который разорвал тред, — это не Intelligence Index в отрыве. Это вид «эффективность интеллекта против стоимости», где ось делает другую работу и где Flash 3.5 не просто обыгрывает Opus 4.6. Он стоит в классе, в котором рядом никого нет.

Opus 4.6 берёт около 6,25 доллара за миллион входных токенов и 25 за миллион выходных. Flash берёт 1,50 и 9. Для чат-нагрузки с весом два к одному в пользу выхода эффективное соотношение ближе к 4,5x, чем к круглому «в пять раз» из заголовка треда. Округление честное. Скорость ухудшает картину для флагмана: Flash 3.5 держит более 280 выходных токенов в секунду, а Opus 4.6 в режиме рассуждения с максимальным усилием идёт примерно на одной десятой этого темпа на том же наборе тестов. Для продуктов, где пользователь смотрит на курсор, — ассистентов кода, агентов поддержки, любого интерактивного потока — задержка является функцией, которую цена не выкупает обратно.

Год назад аргумент в пользу покупки самой дорогой модели умещался в одну строку. Качественный скачок к следующему уровню был достаточно крутым, чтобы разрыв в цене был ошибкой округления против поставленной ценности. График, который тред вставил, — это другой график. Маржинальная стоимость последних двух пунктов интеллекта стала целым ценовым решением для продакшен-нагрузок, а ошибка округления приземляется теперь ближе к 4,75 доллара из каждых потраченных шести.

Есть чистый аргумент в пользу того, чтобы оставить Opus 4.6 в стеке. Длинноконтекстное рассуждение по сотням страниц, агентские циклы, в которых ошибки накапливаются по шагам, документный анализ, где двухпунктовая разница в агрегированном балле скрывает гораздо большие задачно-специфические преимущества. Opus остаётся моделью, к которой инженер идёт, когда режим отказа — «ответ был неправильный», а не «ответ пришёл поздно». Доля продакшен-нагрузок, которые выглядят так, сокращается. Она не нулевая, и это именно та полоса, где 25 долларов за миллион зарабатывают зарплату.

Чат-обороты, которые двигают большинство тарифицируемых токенов, — черновики, резюме, классификация, перевод, автодополнение кода, рассуждение к клиенту, — все попадают в радиус Flash. Вопрос, который инженерные команды задают каждый квартал, больше не «какая модель лучшая». Это «какая модель даёт больше за доллар при приемлемой задержке». На этот второй вопрос Flash отвечает теперь с маржой, которая не требует тонкого толкования.

Вторая формулировка треда, что «везде консенсус, что Opus 4.6 лучше, чем 4.7», заслуживает более мягкой обработки. Она анекдотична. Две последние версии Opus от Anthropic получили разделённые отзывы по кодовым оценкам и по строгости использования инструментов: одни команды сообщают о регрессиях в длинных агентских циклах на 4.7, другие — о чистых победах на идентичных нагрузках. Оба наблюдения могут быть верны одновременно, когда поведение настраивается по многим осям между минорными версиями. К тому же модели стоят меньше чем в пункте друг от друга в публичном индексе, так что раскол сообщества больше похож на спор о вкусе, чем о возможностях. Что не обсуждается — так это то, что цена ни на один из Opus не сдвигается.

Более глубокий сигнал в разговоре на Reddit — то, о чём пользователи не спорили. Никто в треде не защищал цену Opus на принципиальном уровне. Защиты, которые появились, были специфичны для нагрузки. «Opus всё ещё обыгрывает меня в этом агентском цикле.» «Opus остаётся в нашем пайплайне ревью документов.» Это реально, но это защита нагрузки, а не защита флагмана. Флагман должен выигрывать на спектре, а не на одной конкретной полосе.

Два пункта разрыва в интеллекте. В пять раз цена. В шесть раз преимущество в скорости в обратную сторону. Миллионное контекстное окно за 1,50 доллара за миллион входа. Мультимодальный вход, Elo на агентских задачах выше 1650, скидка девяносто процентов на кешированный вход. Ответ Anthropic в следующем квартале расскажет свою собственную историю. Сложнее писать, в мае 2026 года, тот аргумент, который продавец должен унести с собой на встречу с клиентом.

Обсуждение

Имеется 0 комментариев.