Преобразование речи в текст ChatGPT

Благодаря возможностям ChatGPT Speech to Text вы можете легко преобразовывать аудиофайлы в письменный текст. Вы можете попрощаться с утомительной задачей расшифровки и перейти к более эффективному способу обработки аудиоконтента. В этой статье вы узнаете, как преобразовать звук в текст, используя возможности ChatGPT.

Около двух недель назад OpenAI представила ChatGPT Whisper AP . Первоклассная модель Whisper с открытым исходным кодом крупной версии 2 от OpenAI предлагает две конечные точки в API преобразования речи в текст: транскрипцию и перевод.

Эти конечные точки позволяют пользователям:

Транскрибировать аудио с исходного языка,
Переведите и транскрибируйте аудио на английский язык.

Однако обратите внимание, что загрузка файлов в настоящее время ограничена 25 МБ. На сегодняшний день API поддерживает следующие типы файлов: mp3 , mp4 , mpeg , mpga , m4a , wav и webm .

Чтобы использовать API транскрипции ChatGPT, вам необходимо предоставить аудиофайл, который вы хотите транскрибировать, и указать желаемый формат выходного файла для транскрипции.

# Note: you need to be using OpenAI Python v0.27.0 # for the code below to work import openai audio_file= open("/path/to/file/audio.mp3", "rb") transcript = openai.Audio.transcribe("whisper-1", audio_file)

По умолчанию вы получите ответ в формате JSON:

{ "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger. .... }

Если вам нужно включить дополнительные параметры в свой запрос, вы можете просто добавить больше строк формы с соответствующими параметрами. Если вы хотите указать выходной формат как текст, вы можете добавить следующую строку:

... --form file=@openai.mp3 \ --form model=whisper-1 \ --form response_format=text

API переводов принимает аудиофайл на любом из поддерживаемых языков и транскрибирует аудио на английский язык. Важно отметить, что это отличается от конечной точки /Transcriptions, где выходные данные выводятся на исходном языке ввода, а не переводятся на английский язык.

Перевести пример аудио:

# Note: you need to be using OpenAI Python v0.27.0 # for the code below to work import openai audio_file= open("/path/to/file/german.mp3", "rb") transcript = openai.Audio.translate("whisper-1", audio_file)

В этом случае аудиовход был на немецком языке, а результирующий текстовый вывод выглядит следующим образом:

"Hello, my name is Wolfgang and I come from Germany. Where are you heading today?"

В настоящее время поддерживается только перевод на английский язык.

ChatGPT Speech to Text APIs в настоящее время поддерживают следующие языки через конечную точку транскрипции и перевода:

африкаанс, арабский, армянский, азербайджанский, белорусский, боснийский, болгарский, каталанский, китайский, хорватский, чешский, датский, голландский, английский, эстонский, финский, французский, галисийский, немецкий, греческий, иврит, хинди, венгерский, исландский, индонезийский, Итальянский, японский, каннада, казахский, корейский, латышский, литовский, македонский, малайский, маратхи, маори, непальский, норвежский, персидский, польский, португальский, румынский, русский, сербский, словацкий, словенский, испанский, суахили, шведский, тагальский, Тамильский, тайский, турецкий, украинский, урду, вьетнамский и валлийский.

Хотя базовая модель обучалась на 98 различных языках. Выше отображаются только те языки, для которых коэффициент ошибок в словах (WER) составляет менее 50%. Это стандартный отраслевой эталон для измерения точности модели преобразования речи в текст.

Точность может быть значительно снижена, поскольку модель по-прежнему может предоставлять результаты для языков, не указанных в списке.

Whisper API имеет ограничение по умолчанию для аудиофайлов размером 25 МБ. Если ваш аудиофайл превышает этот предел, вам нужно будет разделить его на фрагменты по 25 МБ или меньше или использовать сжатый аудиоформат.

Стоит отметить, что для оптимальной производительности рекомендуется избегать прерывания звука в середине предложения, так как это может привести к некоторой потере контекста.

Используя приглашение , вы можете повысить качество расшифровок, создаваемых Whisper API. Модель стремится соответствовать стилю подсказки, а это означает, что если в подсказке используются заглавные буквы и знаки препинания, модель, скорее всего, сделает то же самое.

Подсказки могут оказаться невероятно полезными для исправления определенных слов или сокращений, которые модель часто неправильно идентифицирует в аудио.

Тем не менее важно отметить, что наша текущая система подсказок имеет больше ограничений, чем другие языковые модели, и обеспечивает лишь ограниченный контроль над генерируемым звуком.

Преобразование речи в текст ChatGPT

Введение

Быстрый старт

Переводы

Поддерживаемые языки

Более длинные входы

Подсказка