OpenAI анонсировала новые аудиомодели
21 марта «OpenAI» анонсировала появление трех новых аудио моделей. По словам компании, модели превосходят «Whisper», предлагая более высокую точность и производительность. Цена новых моделей правда тоже превосходит.

«Whisper» имеет фиксированную цену за минуту аудио, тогда как новые модели используют тарификацию на основе количества токенов. Это делает его более предсказуемым в плане расходов, особенно для больших аудиофайлов. Однако, новые модели предлагают настройку интонации и стиля речи, что может оправдать их более высокую стоимость в зависимости от потребностей проекта.
Новые модели обеспечивают снижение частоты ошибок в словах и лучшее распознавание языка, обеспечивая более точное и надежное распознавание речи, особенно в сложных условиях, таких как акценты, шумы и различные скорости речи, по сравнению с оригинальными моделями «Whisper».
«Whisper» при преобразование речи в текст, стоит $0.006 за минуту аудио. Для обработки аудио , новая аудиомодель GPT-4o оценивается в $40.00 за 1 миллион входных токенов и $80.00 за 1 миллион выходных токенов. GPT-4o mini стоит $10.00 за 1 миллион входных токенов и $20.00 за 1 миллион выходных токенов.
В среднем, 1 минута разговорной речи ≈ 150—200 слов.
Один токен ≈ 0.75 слова → 1 минута ≈ 200—270 токенов.
— Whisper: $0.006 / мин.
— GPT-4o (вход): 250 токенов × $0.00004 = $0.01 / мин.
Получается дороже на ~70%, но даёт доступ к продолжению диалога, контексту и генерации.
Будем тестировать в своем продукте и поделимся результатом.