CosyVoice: мощный инструмент синтеза речи с открытым исходным кодом на базе искусственного интеллекта
CosyVoice: мощный инструмент синтеза речи с открытым исходным кодом на базе искусственного интеллекта

В современную эпоху быстрого технологического развития технология синтеза речи искусственного интеллекта постепенно меняет нашу жизнь. Сегодня я представлю вам отличный инструмент синтеза речи — CosyVoice.

1. Этапы установки

  1. Клонировать и установить
    • Клонировать репозиторий:git clone --recursive https://github.com/FunAudioLLM/CosyVoice.git。Если клонирование подмодуля не удалось,Можетбегать Заказcd CosyVoice; git submodule update --init --recursive
  2. Установить Конду:Пожалуйста, обратитесь кhttps://docs.conda.io/en/latest/miniconda.html。
  3. Создайте среду Conda
    • conda create -n cosyvoice python=3.8
    • conda activate cosyvoice
    • conda install -y -c conda-forge pynini==2.1.5
    • pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
  4. Решение проблем совместимости sox
    • Ubuntu:sudo apt-get install sox libsox-dev
    • CentOS:sudo yum install sox sox-devel

2. Загрузка модели

Настоятельно рекомендуется скачать предварительно обученныйCosyVoice - 300MCosyVoice - 300M - SFTCosyVoice - 300M - InstructМодельиCosyVoice - ttsfrdресурс。

Загрузка модели SDK

Язык кода:javascript
копировать
from modelscope import snapshot_download
snapshot_download('iic/CosyVoice - 300M', local_dir='pretrained_models/CosyVoice - 300M')
snapshot_download('iic/CosyVoice - 300M - SFT', local_dir='pretrained_models/CosyVoice - 300M - SFT')
snapshot_download('iic/CosyVoice - 300M - Instruct', local_dir='pretrained_models/CosyVoice - 300M - Instruct')
snapshot_download('iic/CosyVoice - ttsfrd', local_dir='pretrained_models/CosyVoice - ttsfrd')

скачать модель git(Убедитесь, что у вас есть Установить git lfs):

Язык кода:javascript
копировать
mkdir -p pretrained_models
git clone https://www.modelscope.cn/iic/CosyVoice - 300M.git pretrained_models/CosyVoice - 300M
git clone https://www.modelscope.cn/iic/CosyVoice - 300M - SFT.git pretrained_models/CosyVoice - 300M - SFT
git clone https://www.modelscope.cn/iic/CosyVoice - 300M - Instruct.git pretrained_models/CosyVoice - 300M - Instruct
git clone https://www.modelscope.cn/iic/CosyVoice - ttsfrd.git pretrained_models/CosyVoice - ttsfrd

Дополнительные шаги:Разархивироватьttsfrdресурси Установитьttsfrdпакет для повышения производительности нормализации текста,Но это не обязательно. Если не Установить,будет использоваться по умолчаниюWeTextProcessing

Язык кода:javascript
копировать
cd pretrained_models/CosyVoice - ttsfrd/
unzip resource.zip -d.
pip install ttsfrd - 0.3.6 - cp38 - cp38 - linux_x86_64.whl

3. Основное использование

Выбирайте разные модели для разных нужд рассуждения:

  • Нулевой выстрел/межъязыковой вывод,Пожалуйста, используйтеCosyVoice - 300MМодель。
  • SFT-рассуждения,Пожалуйста, используйтеCosyVoice - 300M - SFTМодель。
  • рассуждение инструкции,Пожалуйста, используйтеCosyVoice - 300M - InstructМодель。

первый,Воляthird_party/Matcha - TTSдобавить вPYTHONPATH

Язык кода:javascript
копировать
export PYTHONPATH=third_party/Matcha - TTS

Пример кода:

Язык кода:javascript
копировать
from cosyvoice.cli.cosyvoice import CosyVoice
from cosyvoice.utils.file_utils import load_wav
import torchaudio

cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M - SFT')
# sft usage
print(cosyvoice.list_avaliable_spks())
# change stream=True for chunk stream inference
for i, j in enumerate(cosyvoice.inference_sft('Здравствуйте, я модель общего генеративного голоса, чем я могу вам помочь?', «Китаянка», stream=False)):
    torchaudio.save('sft_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M')
# zero_shot usage, <|zh|><|en|><|jp|><|yue|><|ko|> for Chinese/English/Japanese/Cantonese/Korean
prompt_speech_16k = load_wav('zero_shot_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_zero_shot('Я получил подарок на день рождения от друга издалека. Неожиданный сюрприз и глубокое благословение наполнили мое сердце сладкой радостью, и моя улыбка расцвела, как цветок.', «Надеюсь, в будущем ты сможешь добиться большего, чем я. ', prompt_speech_16k, stream=False)):
    torchaudio.save('zero_shot_{}.wav'.format(i), j['tts_speech'], 22050)
# cross_lingual usage
prompt_speech_16k = load_wav('cross_lingual_prompt.wav', 16000)
for i, j in enumerate(cosyvoice.inference_cross_lingual('<|en|>And then later on, fully acquiring that company. So keeping management in line, interest in line with the asset that\'s coming into the family is a reason why sometimes we don\'t buy the whole thing.', prompt_speech_16k, stream=False)):
    torchaudio.save('cross_lingual_{}.wav'.format(i), j['tts_speech'], 22050)

cosyvoice = CosyVoice('pretrained_models/CosyVoice - 300M - Instruct')
# instruct usage, support <laughter></laughter><strong></strong>[laughter][breath]
for i, j in enumerate(cosyvoice.inference_instruct('При возникновении проблем,Он проявил необыкновенное<strong>храбрость</strong>и<strong>мудрость</strong>。', «Китаец», 'Theo \'Crimson\', is a fiery, passionate rebel leader. Fights with fervor for justice, but struggles with impulsiveness.', stream=False)):
    torchaudio.save('instruct_{}.wav'.format(i), j['tts_speech'], 22050)

4. Запустите веб-демо

Можно использовать Web Быстро ознакомьтесь с демо-страницей CosyVoice, поддержка sft/zero-shot/межъязыковое рассуждение/инструкции. Пожалуйста, обратитесь к демонстрационному веб-сайту для получения более подробной информации. Пример Заказ:python3 webui.py --port 50000 --model_dir pretrained_models/CosyVoice - 300M(Можно изменить по мере необходимости Модель)。

5. Расширенное использование

Для продвинутых пользователей,examples/libritts/cosyvoice/run.shОбучение проводится висценарий вывода,Вы можете следовать этому примеру, чтобы познакомиться с CosyVoice.

6. Сборка для развертывания

Если вы хотите использовать grpc для развертывания службы, вы можете выполнить следующие шаги, в противном случае вы можете проигнорировать этот шаг.

Создайте образ докера:

Язык кода:javascript
копировать
cd runtime/python
docker build -t cosyvoice:v1.0.

Запустите докер-контейнер (при необходимости выберите режим вывода):

использование grpc

Язык кода:javascript
копировать
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/grpc && python3 server.py --port 50000 --max_conc 4 --model_dir iic/CosyVoice - 300M && sleep infinity"
cd grpc && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>

использование фастапи

Язык кода:javascript
копировать
docker run -d --runtime=nvidia -p 50000:50000 cosyvoice:v1.0 /bin/bash -c "cd /opt/CosyVoice/CosyVoice/runtime/python/fastapi && python3 server.py --port 50000 --model_dir iic/CosyVoice - 300M && sleep infinity"
cd fastapi && python3 client.py --port 50000 --mode <sft|zero_shot|cross_lingual|instruct>

CosyVoice предлагает нам новый опыт синтеза речи благодаря своим мощным функциям и гибкому использованию. Приходите и попробуйте!

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose