Технологии

Новая голосовая модель OpenAI думает внутри самой звуковой петли — пауза, которая выдавала ИИ, исчезает

Susan Hill

Выдаёт всё пауза. До сих пор голосовой ИИ работал так — расшифровывал речь, передавал текст в языковую модель, получал обратно ответ и заново синтезировал его в звук. Каждый шаг отнимает время. Пользователь слышит тишину, понимает, что на той стороне что-то обрабатывается, и чувствует шов. Новая GPT-Realtime-2 от OpenAI схлопывает весь этот пайплайн в одну модель, в которой рассуждение происходит внутри самой звуковой петли — и шов пропадает.

OpenAI выпустил на этой неделе три новые аудио-модели в своём Realtime API — GPT-Realtime-2, GPT-Realtime-Translate и GPT-Realtime-Whisper. Главная героиня — первая. Компания описывает её как первую голосовую модель с «рассуждением класса GPT-5», построенную так, чтобы один и тот же модуль обрабатывал входящий и исходящий звук, а мышление было вплетено в разговор, а не зажато между этапами транскрипции и синтеза. Цифры, которые это поддерживают, конкретные. Балл Big Bench Audio подскочил с 81,4 процента до 96,6 процента по сравнению с предыдущей референсной моделью. Audio MultiChallenge поднялся с 34,7 процента до 48,5 процента. Контекстное окно выросло с 32 000 токенов до 128 000 — этого хватит, чтобы держать историю клиента целиком в течение одного звонка.

Структурный сдвиг труднее увидеть в бенчмарках. Три года любой, кто поднимал голосового агента в продакшен, был вынужден сшивать стек вручную — Whisper или Deepgram для транскрипции, LLM для рассуждения, ElevenLabs или Cartesia для голоса и промпт-инжиниринг, чтобы замаскировать задержку. Каждый прыжок между деталями стоил миллисекунд и чёткости. Пользователь слышал вшитое скриптом «секунду, проверю», потом тишину, пока модель думает, и наконец ответ. GPT-Realtime-2 встраивает эти строительные леса как нативное поведение. Преамбулы позволяют агенту произнести «секунду, проверю» прямо во время вызова инструментов, чтобы пользователь не сидел в тишине. Параллельные вызовы инструментов дают модели одновременно отправлять несколько запросов в бэкенд и проговаривать, какой из них в работе. Поведение восстановления ловит сбои и выводит их наружу, вместо того чтобы заморозить разговор.

Поверхность управления, открывшаяся для разработчиков, — самая интересная часть. «Усилие рассуждения» теперь настраивается — minimal, low, medium, high и xhigh — со значением low по умолчанию, чтобы не растягивать задержку на простых запросах. Агенту, отвечающему «во сколько вы закрываетесь?», рассуждение класса GPT-5 не нужно. Агенту, ведущему клиента сквозь спор о возврате, нужно. Одной и той же модели можно указывать, насколько глубоко думать на каждом шаге диалога, и это реальное изменение по сравнению с предыдущей моделью, где глубина рассуждения была фиксированной, а разработчик выбирал между «быстро» и «умно» уже при развёртывании.

Скепсис здесь уместен. «Рассуждение класса GPT-5» — это маркетинговая формулировка, а не верифицируемое утверждение. Без независимых бенчмарков на реалистичном диалоге сравнение остаётся внутренним. У голосовых агентов есть отдельный режим отказа, который бенчмарки плохо ловят, — момент, когда агент спокойным, естественным голосом уверенно говорит что-то неверное. Лучшее рассуждение тут помогает, но эту проблему не снимает. Цена тоже весит. GPT-Realtime-2 стоит 32 доллара за миллион аудио-токенов на вход и 64 за миллион на выход. GPT-Realtime-Translate работает по 0,034 доллара за минуту, GPT-Realtime-Whisper — по 0,017. Достаточно дёшево для массового клиентского сервиса. Недостаточно дёшево, чтобы лить это в потребительские разговорные продукты не задумываясь о длительности каждой сессии.

Контекст развёртываний договаривает остальное. Zillow в тот же день включил голосовой поиск жилья. Deutsche Telekom развернул голосовую поддержку с переводом в реальном времени на 14 европейских рынках. И то, и другое — ровно тот сценарий, под который OpenAI выставил цену: длинные, транзакционные, плотно нагруженные контекстом разговоры, в которых пользователь выигрывает от агента, который и впрямь рассуждает, а не просто извлекает данные. Priceline строит системы, в которых путешественники полностью голосом управляют гостиничными бронированиями и отслеживают задержки рейсов. Закономерность в первых названных клиентах ясна — это те, чьи прежние голосовые системы работали хуже всего: колл-центры, линии поддержки, транзакционный туризм. Те самые места, где пользователь сегодня кричит в трубку «оператор».

Модели уже доступны в Realtime API. Голосовые апдейты для самого ChatGPT всё ещё в очереди — «следите за нами, мы это готовим», сказал OpenAI. Сэм Альтман связал запуск с поведенческим сдвигом — пользователи всё чаще выбирают голос для общения с ИИ, когда им нужно «выгрузить» большой контекст. Если этот рисунок устоит, разрыв между голосовым ИИ и текстовым ИИ начинает закрываться — а шов, который выдавал ИИ в телефонной трубке, становится всё труднее услышать.

Обсуждение

Имеется 0 комментариев.