Привет всем, я веб-мастер Coke. Сегодня я рекомендую вам инструмент преобразования аудио в текст — Whisper — это система автоматического распознавания речи (ASR), разработанная OpenAI. После обучения он может поддерживать транскрипцию речи на нескольких языках и переводить эти языки на английский, а также эффективно фильтровать фоновые звуки и шум.
В технической документации OpenAI описывается, как вызвать API преобразования языка в текст на основе модели Whisper для реализации языковой транслитерации или языкового перевода на английский язык.
Speech-to-text API Вводный документ https://platform.openai.com/docs/guides/speech-to-text
Здесь сначала скачиваем Whisper Model (Скачать адрес, смотрите конец статьи):
После загрузки модели интерфейс будет выглядеть следующим образом. Установите язык распознавания.
Сейчас мы тестируем предварительно записанный аудиофайл под названием «Тестовый файл публичной учетной записи форума Xiaoqing».
Мы устанавливаем формат вывода в текстовый формат и выводим его в папку. Нажмите кнопку «Расшифровать», чтобы конвертировать.
Судя по результатам, эффект распознавания текста по-прежнему хорош, и наличие омофонов — это нормально. Кроме того, он также символически цитировал упомянутый мною цитируемый контент, а текст также был перенесен на строки, чего я не ожидал. Затем давайте проверим контент на английском языке, который называется «Тестовый документ на английском языке официального аккаунта форума Сяоцин».
Также установлен вывод в текстовом формате.
Оригинальный английский материал:
This is a test file of the official account of Xiaoqing Forum. The content is "Xiaoqing Forum Technology Sharing Forum"
Система распознавала только «Сяоцин» как «Сякин», что также является более разумной проблемой фонетического перевода. Конечно, в программном обеспечении еще есть много функций, которые необходимо изучить, например, функция перевода и функция захвата звука. Здесь я сначала продемонстрирую функцию захвата звука, которая заключается в преобразовании текста во время разговора.
Следует отметить, что при использовании функции захвата звука индикатор голосовой активности горит при голосовом вводе, индикатор транскрипции горит при расшифровке текста, а когда он гаснет, это означает, что транскрипция завершена или ведется запись. в процессе. После завершения записи индикатор транскрипции погаснет, нажмите кнопку «Стоп», и вы сможете просмотреть текстовые результаты.
Давайте поговорим здесь о функции перевода. Перевод предназначен для перевода языка на английский, поэтому, когда вы решите распознать голос как английский, нажмите «Перевести», и вам будет предложено « Функция перевода переводит речь на английский язык. Он недоступен, если языком аудио уже является английский. ”
Что касается консоли отладки, то проверять активность программного обеспечения удобно каждому. Остальные функции вы также можете изучить самостоятельно. На сегодня это все. Если у вас есть какие-либо вопросы, вы можете оставить мне отзыв в любое время в официальной учетной записи или через учетную запись службы поддержки клиентов.
Мы подготовили Скачать для всех адреси Модель Скачать адрес,сосредоточиться на Наш официальный аккаунт【Форум о Сяоцин】ответить по ключевому слову " Whisper », чтобы получить загрузку.