OpenAI анонсировала новые аудиомодели

21 марта «OpenAI» анонсировала появление трех новых аудио моделей. По словам компании, модели превосходят «Whisper», предлагая более высокую точность и производительность. Цена новых моделей правда тоже превосходит.

«Whisper» имеет фиксированную цену за минуту аудио, тогда как новые модели используют тарификацию на основе количества токенов. Это делает его более предсказуемым в плане расходов, особенно для больших аудиофайлов. Однако, новые модели предлагают настройку интонации и стиля речи, что может оправдать их более высокую стоимость в зависимости от потребностей проекта.

Новые модели обеспечивают снижение частоты ошибок в словах и лучшее распознавание языка, обеспечивая более точное и надежное распознавание речи, особенно в сложных условиях, таких как акценты, шумы и различные скорости речи, по сравнению с оригинальными моделями «Whisper».

«Whisper» при преобразование речи в текст, стоит $0.006 за минуту аудио. Для обработки аудио , новая аудиомодель GPT-4o оценивается в $40.00 за 1 миллион входных токенов и $80.00 за 1 миллион выходных токенов. GPT-4o mini стоит $10.00 за 1 миллион входных токенов и $20.00 за 1 миллион выходных токенов.

В среднем, 1 минута разговорной речи ≈ 150—200 слов.
Один токен ≈ 0.75 слова → 1 минута ≈ 200—270 токенов.

— Whisper: $0.006 / мин.
— GPT-4o (вход): 250 токенов × $0.00004 = $0.01 / мин.

Получается дороже на ~70%, но даёт доступ к продолжению диалога, контексту и генерации.

Будем тестировать в своем продукте и поделимся результатом.

Подписывайтесь на мой телеграм-канал, чтобы решать разные задачи в бизнесе → https://t.me/my10xsales

Ваш пароль

Denis Bumazhnov.

OpenAI анонсировала новые аудиомодели