Поделитесь бесплатным инструментом преобразования текста в речь, который можно использовать в сценариях разговора
Поделитесь бесплатным инструментом преобразования текста в речь, который можно использовать в сценариях разговора

Привет всем, я Xiaomai. Сегодня я поделюсь с вами бесплатным инструментом преобразования текста в речь, который можно использовать в сценариях разговора.

Чтение статистики

Не знаю, бывает ли у вас такая ситуация в повседневной учебе и работе. Когда мы заканчиваем читать статью, мы можем закончить ее быстро, но впечатление будет не очень глубоким или во многих случаях перед компьютером; или мобильный телефон. После долгого чтения у меня очень устают глаза. Надеюсь, я смогу воспринять содержание нашей статьи посредством слуха. Я часто читаю статьи в публичных аккаунтах и ​​предпочитаю их слушать, а не читать. Постепенно мы обнаружили, что прослушивание контента легче воспринимается, чем чтение, и это может значительно снизить усталость глаз.

Аудиочтение содержания статьи
Аудиочтение содержания статьи

Преобразование зрения в слух значительно улучшает наш пользовательский опыт, а также может помочь нам лучше понять содержание статьи. Например, нам неудобно читать замечательные статьи за рулём. В это время мы можем понять содержание статьи, преобразуя зрение в слух.

Упомянутая выше проблема также очень проста. Это не что иное, как преобразование текстового контента в аудиоконтент. На рынке существует множество таких технологий, которые могут конвертировать текст в аудио. Многие крупные компании также предоставляют такие возможности разработки для преобразования контента наших собственных продуктов в аудиоконтент путем стыковки с платформой. С развитием технологий аудиорежимов становится все больше и больше. Например, он поддерживает настройки пола аудиочеловека, тембра, звукового фона и т. д.

Хотя функции этих продуктов очень мощные, они требуют определенных возможностей разработки программ и не очень удобны для пользователей, которые не разбираются в разработке программ. Самая важная проблема заключается в том, что когда мы хотим создать много аудиофайлов, нам нужно за это платить, и стоимость не низкая.

Цена на текст в аудио
Цена на текст в аудио

Что такое Чат ТТС

Сегодня я хочу поделитьсяChatTTS,Что такое Чат А что насчет ТТС? Какие преимущества он имеет перед другими статьями, преобразованными в аудио?

ChatTTS — это разговорный,Оптимизированный,Подходит для естественного разговорного преобразования текста в речь.,и естьБесплатный и с открытым исходным кодомподдерживатьмногоязычныйинструменты。Вы можете встроить его в свои собственные программы,Вы также можете использовать официальные онлайн-инструменты.,Используйте напрямую.

Инструмент преобразования текста в речь ChatTTS
Инструмент преобразования текста в речь ChatTTS

Используйте официальное описание,ChatTTSчто такое。ChatTTSЭто модель генерации речи, специально разработанная для сценариев диалога.,Особенно подходит для диалоговых задач с помощниками по большой языковой модели (LLM).,и такие приложения, как диалоговые аудио- и видеопрезентации. Он поддерживает китайский и английский языки.,Обучение проводилось с использованием примерно 100 000 часов данных на китайском и английском языках.,ChatTTSсуществоватьсинтез Демонстрация высокого качества и естественности речи.

Как использовать

Если вы не программист, вы можете напрямую использовать онлайн-инструмент для генерации речи на официальном сайте. Вставьте текст, который необходимо преобразовать в речь, непосредственно в поле содержимого, а также вы можете внести некоторые изменения в сгенерированную речь, например, скорость звука, тембр и т. д. После его создания нажмите кнопку загрузки на странице, чтобы сохранить аудиофайл локально и использовать его в другом месте.

Настройка параметров ChatTTS
Настройка параметров ChatTTS

Если вы программист и хотите иметь возможность наследовать это в своих собственных продуктах, для достижения этой цели вам потребуется запрограммировать соответствующий код. Но это очень просто. Официал также предоставляет примеры кода, и вы можете сделать это всего с помощью нескольких строк кода.

1. Загрузите код с GitHub.

Язык кода:shell
копировать
git clone https://github.com/2noise/ChatTTS

2. Установите зависимости кода

Прежде чем начать, убедитесь, что у вас установлены необходимые пакеты. Вам понадобится фонарик и ChatTTS. Если он еще не установлен, вы можете установить его с помощью pip.

Язык кода:shell
копировать
pip install torch ChatTTS

3. Импортируйте необходимые библиотеки.

Импортируйте необходимые библиотеки в файлы кода. Вам понадобится фонарик, ChatTTS и аудио из IPython.display.

Язык кода:python
кодКоличество запусков:0
копировать
import torch
import ChatTTS
from IPython.display import Audio

4. Инициализируйте ChatTTS

Создайте экземпляр класса ChatTTS и загрузите предварительно обученную модель.

Язык кода:python
кодКоличество запусков:0
копировать
chat = ChatTTS.Chat()
chat.load_models()

5. Подготовьте текстовый контент

Определите текст, который будет преобразован в речь。ВоляYOUR TEXT HEREЗамените желаемым текстом。

Язык кода:python
кодКоличество запусков:0
копировать
texts = ["Привет, добро пожаловать в ChatTTS!"]

6. Генерация речи

Используйте метод вывода для генерации речи из текста. Установите use_decoder=True, чтобы включить декодер.

Язык кода:python
кодКоличество запусков:0
копировать
wavs = chat.infer(texts, use_decoder=True)

7. Воспроизвести аудио

Воспроизведите сгенерированный звук, используя класс Audio из IPython.display. Установите частоту дискретизации 24 000 Гц и включите автозапуск.

Язык кода:python
кодКоличество запусков:0
копировать
Audio(wavs[0], rate=24_000, autoplay=True)

На данный момент функция всей программы реализована. Из полного кода, приведенного ниже, нетрудно увидеть, что всего несколько строк кода могут преобразовать нужный нам текстовый контент в голосовой файл.

Язык кода:python
кодКоличество запусков:0
копировать
import torch
import ChatTTS
from IPython.display import Audio

# Инициализировать ChatTTS
chat = ChatTTS.Chat()
chat.load_models()

# Определите текст, который будет преобразован в речь
texts = ["Привет, добро пожаловать в ChatTTS!"]

# Генерировать речь
wavs = chat.infer(texts, use_decoder=True)

# Воспроизвести сгенерированный звук
Audio(wavs[0], rate=24_000, autoplay=True)

ChatTTS

Возможно у вас возникнет вопрос,На рынке так много инструментов преобразования текста в речь.,ЧтоChatTTSКаковы преимущества,Или каковы его характеристики? Как упоминалось ранее,Инструмент бесплатный и с открытым исходным кодом.,и поддерживает доступ к программе,Он также поддерживает онлайн-использование.

Что касается конкретных функций, давайте посмотрим, что говорит официальный сайт.

1. Многоязычная поддержка

Ключевой особенностью ChatTTS является поддержка нескольких языков, включая английский и китайский. Это позволяет ему обслуживать широкую базу пользователей и преодолевать языковые барьеры.

2. Масштабное обучение данным.

ChatTTS использует для обучения большой объем данных, около 10 миллионов часов данных на китайском и английском языках. Результатом такой масштабной тренировки является высококачественный синтез звука, который звучит естественно.

3. Совместимость диалоговых задач

ChatTTS хорошо подходит для решения диалоговых задач, которые обычно назначаются LLM с большой языковой моделью. Он может генерировать ответы на разговоры и обеспечивать более естественный и плавный интерактивный опыт при интеграции в различные приложения и службы.

4. План с открытым исходным кодом

Команда проекта планирует открыть исходный код обученной базовой модели. Это позволит академическим исследователям и разработчикам сообщества продолжать исследования и развивать эту технологию.

5. Контроль и безопасность

Команда работает над тем, чтобы сделать модель более управляемой, добавить водяные знаки и интегрировать ее с LLM. Эти усилия обеспечивают безопасность и надежность модели.

6. Простота использования

ChatTTS предоставляет пользователям простой в использовании интерфейс. Для создания соответствующих голосовых файлов в качестве входных данных требуется только текстовая информация. Эта простота делает его удобным для пользователей, нуждающихся в синтезе речи.

Используйте опыт

Будь то онлайн-инструмент или доступ через программу, это общий опыт. Эффект относительно хороший, и его могут принять во внимание те, кто генерирует много контента и беспокоится о стоимости. Еще одним важным моментом является то, что он может генерировать соответствующие языковые функции на основе описания вашего текста.

Например, в сгенерированном тексте я упомянул использование сычуаньского диалекта. Окончательный звуковой эффект будет иметь характеристики сычуаньского диалекта.

На этом распространение этого инструмента заканчивается. Надеюсь, что распространение этого инструмента также будет вам полезно.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose