Исследование и изучение технологической линии AI (Wensheng Speech)-TTS: от метода параметризации сращивания до сквозного вывода Tacotron
Исследование и изучение технологической линии AI (Wensheng Speech)-TTS: от метода параметризации сращивания до сквозного вывода Tacotron

Исследование и изучение технологической линии AI (Wensheng Speech)-TTS: от метода параметризации сращивания до сквозного вывода Tacotron

В эпоху цифровых технологий технология преобразования текста в речь (TTS) стала ключевым мостом для взаимодействия человека с компьютером. Будь то помощь в чтении для людей с нарушениями зрения или привнесение души звука в умных помощников, технология TTS играет свою роль. . жизненно важная роль. Технология TTS прошла долгий путь от оригинального подхода сращивания и параметрических методов до современных решений глубокого обучения. Эта статья проведет вас через время, чтобы изучить эволюцию технологии TTS, сосредоточив внимание на том, как использовать передовые алгоритмы и вычислительные модели для преобразования фрагмента статического текста в естественный и плавный голос, который звучит как голос реального человека. Мы более подробно рассмотрим, как революционное воздействие глубокого обучения приводит технологию TTS к большей естественности и пониманию, в частности, как Tacotron от Google и WaveNet от DeepMind устанавливают новые стандарты в этой области. По мере развития технологий будущие системы TTS будут более интеллектуальными, гибкими и способными обеспечивать персонализированное и эмоционально насыщенное голосовое взаимодействие в более широком диапазоне сценариев применения.

1.TTS before End-to-end

1.1 Конкатенативный подход

Конкатенативный подход — одна из традиционных технологий синтеза речи (TTS). Основная особенность этого метода — речь из большой базы данных, то есть речь синтезируется путем склейки уже записанных речевых фрагментов. Эти речевые сегменты могут представлять собой отдельные фонемы (основные единицы речи), слоги, слова или фразы и т. д. и записываются, охватывая различное произношение, интонации и эмоции.

Преимущество сплайсированного подхода в том, что синтезированная речь часто звучит очень естественно, поскольку основана на записях реального человеческого голоса. Однако этот подход также имеет некоторые ограничения и недостатки:

  • Высокое потребление ресурсов: из-за необходимости поддерживать огромную библиотеку модулей.,Это занимает много места для хранения.
  • Ограниченная гибкость: если новое слово или слово со специальным произношением не включено в базу данных, система может не суметь синтезировать естественный голос.
  • Высокие производственные затраты: для производства юнит-библиотек требуется профессиональное записывающее оборудование и окружающая среда.,и много времени на запись и обработку,Поэтому себестоимость продукции относительно высока.

1.2 Параметрический подход

В синтезе текста в речь (TTS) параметрический подход представляет собой технологию синтеза речи по модели. В отличие от конкатенативного подхода, который напрямую использует записанные сегменты речи, параметрический подход использует математические модели для моделирования характеристик человеческого голоса и синтезирует речь на основе этих моделей. Ниже приведен основной рабочий процесс параметризованной системы TTS:

  1. Анализ текста: сначала анализируется вводимый текст.,Включая нормализацию текста, лексический анализ и синтаксический анализ.,Затем,Текст преобразуется в последовательность фонем.,Фонема — основная единица произношения слова голосиз;
  2. голос Моделирование:
    • Извлечение признаков: сначала,Извлечение акустических характеристик из больших коллекций человеческих записей,Эти характеристики представляют собой основные свойства голосовиз.,Включает основную частоту (высоту звука), Форманты (представляющие форму голосовых связок и полости рта)、продолжительность фонемы、Энергетика и т. д.
    • Обучение акустической модели: используйте извлеченные функции для обучения акустической модели.,Эти модели предназначены для изучения взаимосвязи между текстовыми характеристиками (такими как фонемы, тональные знаки) и акустическими характеристиками.
  3. Генерация параметров: прогнозирование акустических параметров на основе последовательностей фонем с использованием акустической модели.,Включает основную частоту (высоту звука), Форманты (представляющие форму голосовых связок и полости рта)、продолжительность фонемы、Энергетика и т.д.;
  4. Синтез звука: предсказанные акустические параметры вводятся в вокодер, и вокодер генерирует синтезированный голосовой цифровой сигнал на основе этих параметров.
  5. Синтез голоса: окончательный цифровой сигнал преобразуется в слышимый голос.,вывод пользователю. На рисунке ниже описан метод параметризации HTS (система синтеза речи на основе HMM/DNN).,HTS обычно относится к HMM-based Speech Синтез) рабочий процесс

Основными преимуществами параметрических методов являются:

  • Небольшое потребление ресурсов: нет необходимости хранить большое количество записываемых клипов.,Параметры модели обычно занимают относительно небольшой объем памяти.
  • Высокая управляемость: путем настройки параметров модели.,Различные характеристики синтезированного голоса могут быть изменены.,Такие как интонация, скорость речи, эмоции и т. д.
  • Гибкость: теоретически любой текст можно синтезировать.,Включает новые слова и нестандартную лексику.,без ограничений заранее записанными клипами.
  • Зависимость от вокодера: качество выходного звука во многом зависит от производительности вокодера, а некоторые традиционные вокодеры могут вызывать потерю качества звука. Однако параметрические методы также имеют некоторые проблемы:
  • Естественность: традиционная параметрическая TTS система обычно лучше, чем базовый метод сварки или последнее углубленное Обучение методу синтеза изголосовых звуков более механично и неестественно.
  • Сложность модели: построение точной симуляции поведения человеческого голоса с помощью акустической модели очень сложно.,Определенные функции языка могут потребовать значительных корректировок и оптимизаций.

С развитием технологий к системам TTS стали применяться технологии глубокого обучения, такие как модели сквозных нейронных сетей Tacotron и WaveNet, которые могут генерировать речь непосредственно из текста и больше не полагаться на заранее записанные речевые фрагменты, решая проблема методов сплайсинга, некоторые ограничения. HTS в основном основан на традиционных статистических моделях и акустической теории, тогда как Tacotron больше полагается на глубокое обучение и большие данные. Системы HTS имеют преимущества с точки зрения вычислительной эффективности и требований к ресурсам, но Tacotron способен генерировать более естественную речь. По мере развития технологий Tacotron и его варианты постепенно становятся новым стандартом в отрасли, особенно в сценариях, где требуется высококачественный синтез речи.

1.3 Deep Voice

Deep Voice — это серия систем синтеза текста в речь (TTS), разработанная Baidu Research. Проект Deep Voice знаменует собой значительный прогресс в технологии TTS на основе глубокого обучения, целью которой является создание более естественного и эффективного речевого вывода за счет использования глубоких нейронных сетей. Первая версия Deep Voice, Deep Voice 1, была выпущена в 2017 году. Это комплексная система, которая использует несколько моделей глубокого обучения для решения различных задач TTS, таких как анализ текста, прогнозирование длительности фонемы и основной частоты. Прогнозирование и синтез звука. Значительным улучшением по сравнению с традиционными параметрическими системами TTS является использование глубоких нейронных сетей для генерации параметров вокодера, что повышает естественность синтезируемой речи. Впоследствии Baidu Research выпустила Deep Voice 2 и Deep Voice 3 (сквозь). Каждая новая версия улучшает архитектуру модели, скорость обучения, качество речи и гибкость системы.

  • Deep Voice 2 Была введена поддержка нескольких динамиков, что позволило Модели изучать и синтезировать голоса разных динамиков.
  • Deep Voice 3 Интегрированное улучшенное WaveNet Модель служит вокодером для генерации окончательной формы сигнала голоса, повышая естественность голоса.

2. Tacotron: End-to-end TTS

2.1 Before Tacotron

Прежде чем объяснять архитектуру модели Tacotron, давайте сначала разберемся с основными концепциями архитектуры RNN и Seq2Seq, которые помогут нам лучше понять модель Tacotron.

2.1.1 Рекуррентная нейронная сеть

RNN — это нейронная сеть с кратковременной памятью, которая показывает хорошие результаты в обработке данных последовательностей и широко используется в распознавании речи, языковом переводе, TTS и других задачах. Основной принцип работы RNN: представьте, что вы смотрите фильм. Когда вы смотрите текущую сцену, ваше понимание основывается не только на текущей сцене, но и на вашей памяти о предыдущем сюжете фильма. RNN работает по этому принципу: каждый раз, когда она обрабатывает новый вход (например, новое слово или данные в определенный момент времени), она учитывает ранее обработанную информацию, позволяя нейронной сети иметь кратковременную память, поэтому нейронная сеть сеть Сеть может анализировать и идентифицировать точно так же, как человеческий мозг.

2.1.2 Архитектура «последовательность-последовательность» (seq2seq)

Это специальная конструкция нейронной сети, используемая для решения задач, в которых входные и выходные данные представлены в виде последовательностей. Этот тип проблем очень распространен в обработке естественного языка (НЛП), такой как машинный перевод (преобразование предложений с одного языка на другой), суммирование текста (сокращение длинных статей в резюме), распознавание речи (преобразование речи в текст) и ожидание. Архитектура Seq2seq обычно состоит из двух основных частей:

  • Кодировщик: Задача кодировщика — прочитать и понять входную последовательность. Представьте, что вы читаете предложение. К тому времени, как вы дойдете до конца предложения, вы поймете смысл всего предложения. То же самое относится и к кодировщику: он «читает» всю входную последовательность (например, предложение), а затем сжимает понятую информацию в «вектор контекста» фиксированного размера (вектор контекста). всей входной последовательности. Выражение понимания.
  • Декодер. Задача декодера — сгенерировать выходную последовательность, используя вектор контекста, предоставленный кодером. Продолжая приведенную выше метафору: если бы вас попросили перефразировать предложение, которое вы только что прочитали, на другом языке, вы бы использовали свое понимание, чтобы передать тот же смысл. Аналогичным образом декодер «переводит» этот вектор контекста, постепенно создавая выходную последовательность (например, предложение на другом языке).

Для хранения информации на каждом этапе кодеры и декодеры часто используют рекуррентные нейронные сети (RNN) или их улучшенные версии (например, LSTM или GRU). Эти типы сетей способны обрабатывать последовательные данные и запоминать предыдущую информацию, что имеет решающее значение для последовательных задач.

2.1.3 Механизм внимания

В ранних моделях seq2seq кодер сжимает всю входную последовательность в один вектор контекста. Однако это приводит к некоторой потере информации, особенно при работе с длинными последовательностями. В качестве решения был введен механизм внимания. Это позволяет декодеру «фокусироваться» на различных частях входной последовательности при генерации выходных данных. Таким образом, декодер может более эффективно использовать входную информацию, особенно когда модели необходимо обрабатывать более длинные входные данные. Представьте, что вы выполняете задачу по распознаванию речи и хотите преобразовать фрагмент речи в текст. Этой речи соответствует предложение: «Я изучаю искусственный интеллект». (Я изучаю искусственный интеллект.) В модели seq2seq без механизма внимания ситуация может быть такой:

  1. Кодер прослушивает все предложение сразу, пытается его запомнить, а затем генерирует фиксированный вектор (длинную последовательность чисел), представляющий содержимое всего предложения.
  2. На основе этого вектора декодер записывает перевод или транскрипцию всего предложения за один раз. Однако предложения могут быть очень длинными, из-за чего кодировщику сложно запомнить каждую деталь, а декодер может допускать ошибки при переводе или расшифровке без дополнительной информации.

Если мы добавим механизм внимания, то способ нашей работы изменится:

  1. Кодер по-прежнему прослушивает все предложение, но создает вектор для каждого слова в предложении, формируя таким образом последовательность векторов, каждый вектор представляет слово в предложении.
  2. Когда декодер начинает работать, он не записывает все предложение за один раз. Вместо этого он идет шаг за шагом, делая паузу после каждого слова. При написании каждого слова механизм внимания вычисляет важность каждого вектора, сгенерированного кодировщиком, и фокусируется на наиболее важных из них.

Например, при написании слова «Я» (мне) внимание может быть сосредоточено преимущественно на фрагменте «Я учусь»; когда речь идет о слове «искусственный» (искусственный), внимание может быть сосредоточено на «об искусственном»; .интеллект» часть. Таким образом, декодер может «оглянуться» на наиболее важные части речи при написании каждого слова, как если бы инструктор подсказывал ему: «Послушайте, сейчас мы собираемся написать «искусственное», пожалуйста. Сосредоточьтесь на речевом фрагменте, в котором упоминается «искусственный интеллект». Это сделает окончательный текст более точным и уменьшит количество ошибок и пропусков.

2.2 Модель Такотрона (2017 г.)

Tacotron — это система синтеза текста в речь (TTS), разработанная исследовательской группой Google. Впервые он был публично представлен в 2017 году в статье под названием «Такотрон: на пути к сквозному синтезу речи». Его особенности заключаются в следующем:

  • Комплексная архитектура: Tacotron это сквозной TTS Модель,Он использует архитектуру последовательность-последовательность (seq2seq).,Он содержит кодировщик, механизм внимания и компоненты декодера.,Непосредственное преобразование входных последовательностей символов в акустические характеристики.,Это генерирует форму голосового сигнала.
  • Механизм внимания: Такотрон использует механизм внимания для решения проблемы временного выравнивания между текстами. Этот механизм может автоматически определять, какие части текста каким частям должны соответствовать.
  • Вокодер WaveNet: в Tacotron 2 интегрированный вокодер WaveNet, который значительно повышает естественность генерации изголосов.
  • Естественный опыт прослушивания: в сочетании с традиционной параметрической технологией TTS Модель по сравнению с Tacotron Способен издавать более естественные и связные звуки.
Encoder

Роль и функция кодировщика графем-фонем. Представьте, что вы хотите сказать компьютеру предложение и хотите, чтобы компьютер произнес его в устной форме. Вы пишете предложение, а затем компьютер должен его понять и подготовить к произнесению. Эту «понимающую» роль играет энкодер в системе Tacotron. Задача кодировщика — взять написанный вами текст и преобразовать его в формат, понятный компьютеру. Он делает несколько вещей:

  • Анализ текста: кодировщик сначала просматривает каждую написанную вами букву или слово и преобразует их в математические векторы. Этот процесс подобен присвоению каждой букве или слову специального кода, по которому компьютер может их распознавать и обрабатывать.
  • Учитывайте порядок: затем кодировщик учитывает порядок этих букв или слов. В языке порядок имеет значение, например, «Кошка гонится за собакой» и «собака гонится за кошкой» Смысл совершенно другой. Кодировщик использует специальный шаблон (обычно петлю нейронной связи). сеть,аббревиатура RNN) для поддержания этой последовательности информации.
  • Готовый вывод: после того, как кодер обработал текст, он создает новую последовательность математических векторов, содержащую информацию всего предложения. Эти векторы включают в себя всю важную информацию о предложении, например, о том, как соединяются слова, какое слово важнее и т. д.

Короче говоря, роль кодировщика заключается в преобразовании написанного вами текста в математическую форму, которую компьютер может понять и подготовить к проговариванию. Как только это будет сделано, кодер передает эту информацию декодеру, который затем использует ее для фактической генерации речи.

Decoder

Представьте, что вы оратор, ваш мозг похож на декодер, а ваша речь — на текст, обрабатываемый кодером. Когда вы начинаете речь, вы говорите абзац за абзацем, концентрируясь на небольшой части за раз и решая, как следует использовать свой голос, чтобы передать ее. Именно это и делает декодер в Tacotron.

  • генерация голоса: декодер генерирует голос шаг за шагом.,Каждый шаг производит звук «из», который может быть слогом.,Пока не будет сгенерировано все предложение изголос. Это как опытный читатель,Может основываться на уже понятном текстовом содержании.,Решите, как должен звучать каждый слог.
  • Контроль времени: декодер отвечает за определение продолжительности каждого слога или слова.,Другими словами, он контролирует ритм и скорость речи. Это гарантирует, что голос звучит естественно.,Вместо того, чтобы механически играть одну ноту за другой.
  • Высота тона и интонация: декодер также отвечает за тон голоса.,Вы можете сделать голос более похожим на вопрос, выражение удивления или других эмоций.,Вместо монотонного звука.
  • Работает с механизмом внимания: Механизм внимания очень похож на то, когда вы читаете книгу и указываете пальцем на строку, которую читаете. Когда ваши глаза переходят к следующей строке, ваши пальцы перемещаются вместе с ними, чтобы вы не теряли позиции и сохраняли последовательность чтения. Аналогично, Tacotron. Механизм центрального внимания гарантирует, что в процессе генерации голоса Модель может отслеживать правильное положение текста, преобразуемого в голосиз.
Pre-net

Pre-net выполняет некоторую предварительную обработку информации, выводимой кодером, прежде чем декодер ее получит. Проще говоря, pre-net помогает подготовить и улучшить эту информацию, чтобы последующий процесс генерации речи мог протекать более гладко. Dropout, используемый в pre-net, — это метод, используемый при обучении нейронной сети, чтобы предотвратить «переобучение» сети обучающих данных. Этот вид переобучения называется «переобучением» и подобен ученику, который может отвечать только на вопросы из учебника, но больше не будет этого делать, когда сталкивается с новыми вопросами. Выпадение заставляет сеть не слишком полагаться на какую-либо одну часть, случайным образом закрывая (или «отбрасывая») некоторые соединения в сети во время обучения (подумайте о связях между нейронами в нейронной сети), чтобы сеть могла лучше обобщать. то есть быть более адаптируемым к новым ситуациям.

Post processing

Представьте, что вы сделали фотографию и хотите поделиться ею в социальных сетях. Вы можете загрузить исходное изображение напрямую, но вы также можете сначала отредактировать фотографию, например отрегулировать яркость, контрастность или добавить фильтры, чтобы фотография выглядела более красиво или иметь определенный стиль, а затем загрузить ее. Этот процесс редактирования фотографий является своего рода постобработкой. В системах преобразования текста в речь (TTS), таких как Tacotron, модули постобработки служат той же цели. Основная задача Tacotron — преобразовать текст в речь, но сгенерированная речь изначально может быть не идеальной, иметь несколько механическое ощущение или качество звука может быть недостаточно естественным. В это время в игру вступает модуль постобработки. Он выполняет дополнительную обработку и улучшение первоначально сгенерированной речи для улучшения качества конечной речи. Эта обработка может включать в себя:

  • Отрегулируйте характеристики звука: например, отрегулируйте громкость и высоту звука, чтобы голос звучал сбалансированно и последовательно на протяжении всего предложения.
  • Удаление шума: Устраните любой статический шум и шум, который может возникнуть в процессе генерации, делая изображение более четким.
  • Повысьте ощущение естественности: сделайте звуки, генерируемые машиной, более похожими на звуки реальных людей, добавив звуки дыхания и небольшие движения рта и горла.
How good is Tacotron
WaveNet(2016)

WaveNet — это модель глубокого обучения, разработанная DeepMind в 2016 году. В основе WaveNet лежит глубокая сверточная нейронная сеть, генерирующая последовательные и реалистичные речевые сигналы. Эта технология знаменует собой важное достижение для систем преобразования текста в речь (TTS), поскольку она обеспечивает более естественную речь, чем предыдущие технологии. В Tacotron 2 WaveNet используется для преобразования Mel-спектрограммы, сгенерированной Tacotron, в слышимый речевой сигнал. В синтезе речи этот шаг называется операцией вокодера. Задача вокодера — преобразовать более абстрактное представление (например, мел-спектрограмму) в необработанный аудиосигнал.

Представьте, что у вас есть набросок пейзажа. Хотя на этом эскизе изображены горы, деревья и небо, он бесцветен и лишен деталей. Элементы можно лишь приблизительно идентифицировать по их очертаниям. Мел-спектрограмма, сгенерированная моделью Tacotron, немного похожа на этот эскиз — она содержит базовую структуру речевого сигнала, но еще не является слышимым звуком. Теперь представьте, что у вас есть художник (волновой кодер), который может посмотреть на этот эскиз и нарисовать яркую картину, полную цвета и деталей. Работа художника не только соответствует оригинальному эскизу, но и добавляет детализированную текстуру и цвет, чтобы оживить всю картину. Вокодер WaveNet — один из таких инструментов, преобразующий мел-спектрограммы, сгенерированные Tacotron, в подробные, когерентные звуковые сигналы. В Tacotron 2 процесс выглядит так:

  1. Tacotron Часть принимает ввод текста и генерирует соответствующую спектрограмму из мела. Эта спектрограмма примерно представляет содержание и характеристики, которые должны быть сгенерированы, но это еще не окончательная аудиоформа.
  2. WaveNet Вокодер берет на себя этот процесс, просматривая мел-спектрограмму, а затем генерируя серию аудиосэмплов (то есть сигналов). Вейв Нет С помощью метода авторегрессии (Модель авторегрессии) каждый раз создается одна выборка, а ранее созданная выборка используется для прогнозирования следующей выборки.
  3. Таким образом, WaveNet Постепенно формируются полные аудиосигналы, которые для человеческого уха звучат как непрерывные и естественные звуки.

Внедрение WaveNet значительно улучшило естественность и качество речи, генерируемой Tacotron2. Он способен улавливать нюансы человеческой речи и точно генерировать различные речевые колебания и интонации. Вот почему он используется в качестве вокодера в Tacotron2.

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose