Распознать речь Whisper

Распознает речь из аудио файла в текст. Поддерживаемый формат: mp3. Максимальный размер файла - 25 МБ.

Аудиофайл

[Текст] Имя и путь входного аудиофайла. Поддерживаемый формат: mp3. Максимальный размер файла - 25 МБ.

Модель

Выбор модели для распознавания речи.

Язык аудио

[Текст] Язык аудио. При необходимости можно указать значение языка в формате ISO 639-1. Это повысит точность распознавания и увеличит скорость работы.

Например:

"en" - Английский;
"ru" - Русский.

Подсказка

[Текст] При необходимости можно указать подсказку для языковой модели. Язык подсказки должен соответствовать языку аудиофайла.

Температура

[Число] Температура выборки от 0 до 1. Более высокие значения, например 0,8, сделают выходные данные более случайными, в то время как более низкие значения, (например, 0,2) сделают их более целенаправленными и детерминированными.

Если установлено значение 0, модель будет использовать логарифмическую вероятность для автоматического повышения температуры до достижения определенных пороговых значений.

Таймаут

[Число] Максимальное время ожидания ответа в секундах.

Результат

[Текст] Распознанная строка.

Уровень обработки

Выбор уровня обработки ошибок. Возможные значения:

"Default" - по умолчанию;
"Ignore" - ошибки игнорируются;
"Handle" - ошибки обрабатываются.

Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.

Уровень сообщений

Выбор уровня сообщений, который будут выводить блоки при работе. Возможные значения:

"Default" - по умолчанию;
"Release" - вывод отключен;
"Debug" - вывод основной информации;
"Detailed" - вывод подробной информации.

Если выбрано значение "Default", то будет использоваться значение блока "Старт" данной диаграммы.

Текст ошибки

[Текст] Возвращает подробную информацию об ошибке в случае некорректного выполнения работы блока.

PreviousСинтезировать речь Whisper NextЗапрос к GPT Vision

Last updated 8 months ago