В области звука mel-спектр и mfcc являются очень важными функциональными данными. В области глубокого обучения эти служебные данные обычно используются в качестве модели входного обучения сети для решения различных служб классификации и разделения в области аудио, таких как Обнаружение конечной точки, распознавание ритма, распознавание аккордов, отслеживание высоты звука, классификация музыкальных инструментов, разделение источников звука, эхоподавление и другие сопутствующие услуги.
Конечно, для бизнеса в области глубокого обучения аудио вместо того, чтобы использовать эти две функции, выбирать несколько сетей, маркировать их, помещать данные для обучения и все, мы можем решить определенные аспекты вышеупомянутого бизнеса, основываясь только на две функции mel Spectrum и mfcc. В некоторых случаях этого недостаточно. Только ознакомившись с внутренней логикой, производными деталями и расширениями этих функций, вы сможете лучше объединить глубокое обучение для решения бизнес-задач.
Давайте объясним мел-спектр и характеристики mfcc Алгоритма. Процесс и некоторые детали, продлевать, с местной точки зрения, эти детали повлияют на детальные различия в окончательном представлении функций. То, как эти различия увеличиваются в точности и надежности результатов обучения модели, очень заслуживает изучения. качественные изменения ситуации, а качественные изменения, будь то положительные или отрицательные, стоят того, чтобы на них обратить внимание. наиз,Самое страшное, что никаких изменений при этом не произойдет;,Некоторые вопросы продлевата в широкой перспективе,Использование различных комбинаций функций, проектирование сетевой структуры и т. д. также являются очень важными источниками идей для решения бизнес-задач.
настраивать sr это частота дискретизации,fftLength длина кадра,slideLength длина скольжения
Ниже приведена приблизительная картина мел-спектра и mfcc. процессакартина。
Как показано на блок-схеме, шаг 1 относится к предварительной обработке сигнала, которая компенсирует потерю высокочастотных компонентов и улучшает высокочастотные компоненты. В нормальных условиях этот шаг можно игнорировать. имеет определенный эффект улучшения характеристик. Формула выглядит следующим образом
\alpha Обычно берет 0,97 Формула принадлежит дифференциальному фильтру верхних частот первого порядка.
В действительности большинство сигналов нестационарны, но большинство из них можно приблизительно рассматривать как стационарные в течение короткого периода времени. Кратковременное преобразование Фурье можно использовать для выражения характеристик нестационарных сигналов в частотной области. Обычно для речи это время составляет около 10–30 мс, а для музыки оно может быть больше: 64–256 мс.
Обрамление предполагает перекрытие, которое обычно делается на 1/4 или 1/2 длины раздвижной рамы (перекрытие 3/4 или 1/2), т.е. слайдLength=\cfrac{fftLength}4 или\cfrac{fftLength}2 。
Целью добавления окон является уменьшение утечки спектра, уменьшение частотных помех и улучшение эффектов спектра. По умолчанию не добавляется прямоугольное окно (Rect), что приводит к серьезной утечке помех. Как правило, добавление окна Ханна дает хорошие результаты. большинство сигналов. Формула выглядит следующим образом
Ханн — это косинусное окно, а N представляет порядок.
Оконное преобразование Фурье на основе кадров — это кратковременное преобразование Фурье. Анонс следующий
настройки Длина данных dataLength, t=\begin{cases} \cfrac{(dataLength-fftLength)}{slideLength}+1, &Нет отступов \\ \cfrac{dataLength}{slideLength}+1 , &наполнениеfftLength\end{cases}
STFT — стандартное математическое преобразование, которое представляет собой поле комплексного числа и имеет размер t*fftLength ,Чтобы выразить различие,в целомизнравиться|X(m,k)| Возьмите форму,Размерыt*(fftLength/2+1) Представленный в виде спектра STFT, существуют следующие типы спектра.
|X(m,k)| ,STFTамплитудный спектрundefined|X(m,k)|^2 ,STFTвласть Спектрundefined\log(|X(m,k)|) ,STFT dB(децибел)Спектрundefined20\log\left(\cfrac{|X(m,k)|}{fftLength}\right) , STFT стандартный спектр д Б
Примечание:
Спектр д Б представляет собой относительный спектр. Сложение, вычитание, умножение и деление не влияют на относительное значение частоты в д Б. Стандартный спектр д Б эквивалентен установлению базовой опорной линии для облегчения анализа и количественной оценки спектра. этого типа. undefinedИспользование обучения спектру д Б в глубоком обучении в большинстве случаев лучше, чем другие числовые типы спектра.
Этот процесс является важным шагом в расчете критической части мел-спектра и mfcc. Блок-схема выглядит следующим образом
melшкала(scale)Это шкала сжатия журнала, основанная на измерителе слуховых настроек человека.,Человеческое ухо более чувствительно к низким частотам.,Не слишком чувствителен к высоким частотам.,Например, большинство людей могут различать 110 Гц и 116 Гц.,Но 4000 Гц и 4100 Гц практически неотличимы. Формула преобразования между шкалой мел и Гц выглядит следующим образом:
Первые три шага на рисунке предназначены для расчета freBandArr, отображаемого по шкале mel, на основе границы частоты обслуживания и количества полос частот.
Следующий шаг — как сопоставить полосу частот STFT с полосой частот мел-шкалы.,Расчет с использованием полосы частот плюс треугольное окноmelшкалаизfilterBank matrix,Формула треугольного окна выглядит следующим образом.
Как показано ниже
конечноэтотдасимметрияиз,Можно использовать симметричные линейные полосы частот.,Коэффициент полосовой логарифма, полученный по шкале Мела,Левое и правое не будут симметричны,В настоящее время использование треугольного окна асимметрично.,НижеmelшкалаизfilterBank matrixчиновник
Простая принципиальная схема приведена ниже.
наконец,общее использованиеSTFTвластьСпектриfilterBank matrixВыполните умножение матриц, чтобы получитьмелвластьспектр。
К предыдущему шагумелвластьспектрВыбиратьlogОперация,Прямо сейчасспектр мел д БСразуда Обычно используетсяиз“melСпектр”,Вообще говоря, шаги 5 и 6 рассматриваются как единое целое.,Вместе их можно понимать как расчет мел-спектра.
Ниже приведена сравнительная таблица эффектов спектра STFT и мел-спектра (число = 128).
Дискретное косинусное преобразование, то есть реальное преобразование Фурье, где данные представляют собой четную функцию, имеет характеристики декорреляции и концентрации энергии. Формула выглядит следующим образом
когда\sin(\theta)=0 , то есть преобразование ДКП, \cos(\theta)=0 , то есть преобразование DST.
Преобразование DCT — это отражение признаков после сильно декоррелированных данных. Из-за особенностей концентрации энергии оно широко используется в области сжатия данных. Обычно DCT учитывает выбор промежуточных точек, границ, методов и т. д. во время обработки данных. Анализ и продолжение Существует 8 соответствующих ситуаций. Обычно используется трансформация DCT-II, формула следующая.
Мел-спектр получен после кепстрального преобразования ДКП. коэффициент(cepstral coeffs)Прямо сейчасMFCCs。
Расчет энергии и дельты является дополнительной операцией в системе функций mfcc.
Энергетическая характеристика эквивалентна добавлению смещения к mfcc, что оказывает определенный антишумовой эффект. Формула выглядит следующим образом.
По формуле,Может быть рассчитано во временной области,Его также можно рассчитать на основе частотной области.,Это очевидно,Динамический диапазон рассчитанного таким образом результата слишком мал.,в целом针对результат ВыбиратьlogОперация Прямо сейчасenergy=\log(\sum_{n=1}^N x^2[n] ) , также известный как журнал энергии, может заменить первое значение компонента постоянного тока mfcc или добавить первую позицию.
дельта - изменение расчетных данных, основанное на аппроксимации локального наклона текущей площади точки методом наименьших квадратов, формула имеет следующий вид
M — порядок, который представляет собой нечетное число, обычно 9.
Рассчитайте его дельту для mfcc, а затем рассчитайте дельту дельты, которая может обнаруживать изменения в состоянии и изменениях mfcc. Его можно использовать как два набора вспомогательных функций mfcc для участия в обучении сетевой модели, что позволяет добиться лучших результатов. точность в некоторых случаях и способность к обобщению.
Соответствующие изображения mfcc следующие:
В целом,Подробное описание объясняетАлгоритм процессаКаждый этап расчета,Подробные мысли и точки расширения, включенные в некоторые этапы процессов, будут подробно обсуждаться ниже.
针对上面предварительный акцентспособ,По сути фильтр верхних частот,Он ослабляет низкие частоты.,Само по себе это не улучшит высокие частоты.,«Компенсация потери высокочастотных составляющих,«Улучшение высокочастотных составляющих» — это не слишком строго, но более наглядно.,Ослабление низких частот — это, условно говоря, замаскированное усиление высоких частот.,Это уменьшает динамический диапазон высоких и низких частот.
Почему нам следует уменьшать динамический диапазон высоких и низких частот? Есть ли лучший способ?
Выше говорилось, что «человеческое ухо более чувствительно к низким частотам.,Не слишком чувствителен к высоким частотам.”,Эта чувствительность предназначена для частотного разрешения.,По интенсивности частоты,В этом предложении все наоборот: человеческое ухо более чувствительно к высоким частотам.,Не очень чувствителен к низким частотам.,Возьмите гитарный инструмент в качестве примера.,Звук, получаемый в результате перетягивания самых толстых и самых тонких струн с одинаковой силой.,То есть физически интенсивность (амплитуда) обоих одинакова.,Но высокие частоты слышны громче низких.,Люди используют вес-A для количественной оценки этого психологического показателя «громкости».,Математически представляет сложение и вычитание логарифмических функций в разных диапазонах частот.,Эффект Как показано ниже。
Как показано на рисунке, вся полоса частот имеет не только затухания, но и реальные области усиления.
При обучении модели глубокого обучения для некоторых предприятий добавление веса A может повысить точность примерно на 4–5 %.
Формирование кадров данных включает в себя две проблемы: длина кадра и перекрытие. Длина кадра определяет частотное разрешение в частотной области и временное разрешение во временной области. Чем больше длина кадра, тем точнее разрешение в частотной области и тем нечетче время. разрешение домена, но из-за нестационарных характеристик большинства сигналов они не могут быть бесконечно длинными. Чем короче длина кадра, тем точнее разрешение во временной области и тем размытее разрешение в частотной области.
Перекрывающиеся проблемы,Речь идет о скольжении относительно текущего кадра,Как указано вышеОбрамление流程所述в целом情况下滑动帧长из1/4или1/2,конечно,Длина скольжения также может быть равна длине рамы (переднее и заднее перекрытие равно 0),даже превышает длину кадра (без перекрытия,Прыжок вперед и назад).
Независимо от того, есть ли перекрытие, неперекрытие или скачок, разрешение во временной области само по себе не улучшается. Это можно понимать как выборку в различных временных интервалах в измерении t спектра. Небольшой слайд эквивалентен интерполяционному повышению разрешения спектрограммы. , а большой слайд эквивалентен пониженной дискретизации спектрограммы. Выборка — это связанный алгоритм в частотной области служб обнаружения конечных точек. Если сдвиг слишком мал или скачок слишком велик, это не даст хорошего эффекта. как показано в следующем сравнении эффектов.
Как вы можете видеть на картинке, фиолетовый и зеленый — это эффекты минимального скольжения и чрезмерных прыжков.
Для сервисов, связанных с обнаружением конечных точек, после выбора подходящей длины кадра обычно лучше скользить вперед и назад без перекрытия или с небольшим скачком.
Целью использования окон во временной области является уменьшение утечки спектра.,В приведенном выше описании Алгоритма процесса,Обычно добавляйте окно Ханна,Но есть много оконных функций,Такие как Трианг,Hann,Hamm,Guass,Kaiser,Flattop,Блэкман и так далее.
Как выбирать разные окна в некоторых компаниях, занимающихся глубоким обучением, как выбор разных окон влияет на обучение и результаты модели или какие окна стоит попробовать в бизнесе?
Стоит попробовать Гуасса и Кайзера. Формула следующая.
Для Гуасса:
\sigma=(N-1)/(2\alpha) , Оба обратно пропорциональны друг другу, не определено. по умолчанию\alpha=2.5
Для Кайзера:
I_0(\beta) Модифицированная функция Бесселя нулевого порядка первого рода может быть рассчитана по следующему ряду формул: I_0(\beta)=1+\sum_{k=1}^{\infty} \left[ \cfrac1{k!} \left (\cfrac \beta 2 \right)^k \right] ^2 , обычно товары стоимостью около 15$ не определены по умолчанию\beta=5
По сравнению с большинством других окон, окна Гаусса и Кайзера являются переменными. Обычно, чем больше ширина окна, тем выше разрешение, тем меньше зона перехода, но затухание в полосе задерживания обычно больше, чем уже ширина окна, тем тоньше; Разрешение большое, зона перехода больше, но затухание в полосе задерживания меньше.
Для Guass и Kaiser, двух окон с регулируемой шириной, вы можете максимизировать затухание боковых лепестков в некоторых сервисах. При обучении бизнес-моделей глубокого обучения с соответствующими спектральными характеристиками вы можете добиться хорошей производительности.
В приведенном выше описании Алгоритма процесса,Вообще говоря, комбинация шагов 5 и 6 представляет собой стандартный результат представления спектра.,Но извласть СпектрНелинейный угол коррекции,
Существует более одного вида функции журнала. Конечно, журнал является наиболее важным и часто используемым. Вы можете использовать кубический корень (кубический корень), Relu-подобные и другие методы.
С точки зрения глубокого обучения мел-подобный спектр можно рассматривать как расчет сетевого уровня, а нелинейные операции, такие как логарифм и кубический корень, можно рассматривать как функции активации.
с этой точки зрения,Для разных бизнесов,Различные варианты активации функций плана настройки,Влияние на обучение моделей и результаты может оказаться потрясающим.,Это того стоит в сфере исследований и разработоксосредоточиться на Точку тестирования.
Мел-спектр так хорошо известен. Правда ли, что для глубокого обучения в области аудио требуется только мел-спектр? Конечно, нет, в некоторых случаях мел-спектр не обязательно оптимален.
Как указано выше Алгоритм процесса Описаниеmelшкалаизобъяснять,Это шкала сжатия журнала, основанная на измерителе слуховых настроек человека.,Более точная модель человеческого слуха будет разработана позже.,Шкала Барка и ERB,Формула выглядит следующим образом
Официально в процессе at^{n-1}e^{-2\pi bt} часть \Gamma формальная функция,\cos Понимаемый как тон, он называется гамматоном.
Вообще говоря, шкала ERB в модели слуха человека связана с полосой пропускания гамматонового фильтра, то есть b — полоса пропускания шкалы ERB.
Найти АЧХ на основе этого фильтра очень сложно.,Можно привести только приблизительные формулы,Вывод формул в статье занимает более 20 страниц.,Он превысил исследовательский предел большинства людей,Прямо сейчасвозьми бумагуизрезультатчиновник Это непросто реализовать непосредственно посредством программирования.。УдачливыйиздаaudioFluxПроекты с открытым исходным кодом имеют сравнительные стандартыизвыполнить,Заинтересованные друзья могут изучить это.
Помимо вышеуказанной шкалы,Существует также октавная шкала, основанная на музыкальных октавах.,Более общий масштаб журнала и т. д.,На основании вышеизложенногоАлгоритм процесса,Мел-шкала создает мел-спектр и характеристики mfcc,тот же процесс,Шкала bark/erb дает соответствующий спектр bark/erb и соответствующий кепстральный коэффициент.,что-то другоемасштабировать Сравнительная таблица спектра выглядит следующим образом.
Больше разных масштабировать спектр Типы, которые вы можете попробовать использоватьaudioFluxтестирование библиотеки。
В некоторых отраслях, например, связанных с музыкальными инструментами, могут возникнуть некоторые незначительные проблемы во всех вышеперечисленных масштабах. Для низкочастотных диапазонов некоторые из них могут быть меньше минимального разрешения STFT. В настоящее время это очевидно бессмысленно и бессмысленно. будет вызвано дополнительное интерференционное расхождение. Эффект: для среднечастотных диапазонов некоторые из них могут быть слишком большими, а разрешение для высокочастотных диапазонов может быть недостаточно большим, а разрешение все еще относительно небольшим;
При вышеуказанных обстоятельствах в некоторых предприятиях и определенных сетевых структурах разница в разрешении между средними и низкими частотами может привести к несоответствию модели обучения, что затруднит достижение определенной точности, или разрешение высокочастотных частот будет неудовлетворительным. слишком маленький может привести к тому, что модель обучения не подходит и имеет плохую способность к обобщению. В этом случае вы можете попробовать следующие методы:
1. Соответствующим образом добавьте наборы данных, настройте структуру и параметры сети и другие распространенные методы.
2. Добавьте входные данные разных размерностей, чтобы сеть могла найти оптимальное решение или выйти за пределы локального оптимального решения.
3. Настройте масштаб. Теперь, когда причина ясна, начните с оптимизации самой функции.
Подводя итог, можно сказать, что спектральные данные, полученные в разных масштабах, будут иметь разные различия в деталях высоких и низких частот, накоплении энергии и контрастности. Эта разница усиливается в некоторых бизнес-практиках. Существует множество попыток изучить точность и надежность модели. . ценить.
В некоторых компаниях, занимающихся глубоким обучением, если соответствующие функции по шкале мела могут дать результаты, использование функций, связанных с корой, для их замены часто будет иметь определенный эффект.
В цифровых сигналах фильтры включают в себя базовые фильтры верхних частот и фильтры нижних частот. Полосовые фильтры могут состоять из последовательно соединенных фильтров нижних и верхних частот. Банк фильтров можно понимать как несколько полосовых фильтров.
банк Фильтры — это матрица отображения, которая представляет взаимосвязь отображения между линейными полосами частот STFT и полосами частот в разных масштабах. Что касается способа сопоставления, это алгоритм. Процесс описывает метод функции треугольного окна на шаге 5, Фильтр треугольного окна bankКак показано ниже показано
Как показано на рисунке выше, полоса частот, генерируемая общей шкалой, имеет небольшую полосу низких частот и все большую полосу высоких частот, что означает, что длинная полоса в области высоких частот будет участвовать в расчете отображения текущая частотная составляющая, которая явно неразумна по сравнению с низкими частотами. В это время банк фильтров необходимо нормализовать.
Метод нормализации имеет два метода: пропускную способность и площадь. Нормализация метода пропускной способности имеет следующий эффект: Как показано ниже.
Для расчета банка фильтров существует только метод треугольной оконной функции. Конечно, нет, вы можете использовать такие оконные функции, как Rect, Hann, Hamm и т. д. Gammatone также является специальной оконной функцией. даже не нужно рассчитывать. Ниже приведена сравнительная таблица банков фильтров в нескольких разных окнах.
Ниже приведена таблица сравнения спектра в разных окнах.
На рисунке Slaney и ETSI — два разных типа треугольных окон.,Можно попробовать и другие тесты типа окон.audioFluxБиблиотека。
Существует множество методов уточнения обработки перекрытия оконных функций. Переднее и заднее окна полосы частот перекрываются. Общий метод обработки заключается в том, что точка перекрытия больше не будет участвовать в предыдущем расчете, а точка перекрытия больше не будет участвовать. в последующем расчете, как показано на рисунке ниже.
Если функцию окна каждой полосы частот можно масштабировать одинаково,Таким образом, полосы частот в разных масштабах становятся регулируемыми.,Различные варианты ширины для оконных функций,Соответствует различным изменениям частотно-временного разрешения,объединитьPWT(псевдовейвлет-преобразование),Просто другой видCWTЭффектизэквивалентные варианты,отличается отCWTпарная волновая функцияиз Квалификационные требования,CWT можно изучать с помощью более широкого диапазона оконных функций.
Таким образом, для фильтра bankизвычислить,Какие окна следует добавить? Как добавить окна? Какой метод нормализации?Использование этих комбинаций позволяет получить более детальную информацию.изразные характеристики,Насколько точна и надежна обученная модель?,Это очень стоит попробовать изучить.
Что такое кепстральный коэффициент, почему после расчета DCT кепстральный? коэффициент?
Стандартная формула кепстра определяется следующим образом:
После того, как данные преобразованы с помощью БПФ и снят журнал, преобразование БПФ обычно называется кепстром. В более широком смысле данные временной области преобразуются в данные частотной области посредством БПФ, а данные частотной области снова.
Преобразование БПФ — это преобразование кепстра.
ДКП является частным случаем ДПФ.,Следовательно, преобразование ДКП снова для предыдущего результата БПФ соответствует определению приведенной выше концепции формулы.,Также известен как кепстральный коэффициент;по сравнению сDFT,Энергия DCT более концентрированная,Эквивалент повторного сжатия данных спектра.,Небольшое количество коэффициентов может отражать сильно декоррелированные характеристики данных.
Что можно сделать с инвертированным спектром?
Он может оценивать высоту тона, может использоваться как способ деконволюции, разделения сигналов, расчета огибающей/форманты и т. д.
Формула вывода деконволюции выглядит следующим образом.
Дробное преобразование Фурье (FRFT)
Согласно определению кепстра, если мы расширим его, сможем ли мы выполнить несколько БПФ. В чем смысл нескольких БПФ? Расширение множественных преобразований заключается в следующем:
настраиватьn=\frac{2\phi}\pi , определенный после замены
После цитирования $\phi$,Порядок преобразования БПФ может быть нецелым, то есть дробным преобразованием Фурье.,Физический смысл заключается в повороте спектра на определенный угол.,Спектр можно анализировать еще в одном измерении.,Это также приносит другие расширения концепции.,Например, дробная свертка и так далее.
Однажды я видел небольшой бизнес, занимающийся классификацией аудио за рубежом. Входные данные сети включают энергию во временной области, среднеквадратическое значение, скорость перехода через нуль, среднее значение, дисперсию, ковариацию, асимметрию, эксцесс, момент, медиану и десятки медиан во временной области. связанные статистические характеристики, такие как числа, коэффициенты корреляции и т. д., несмотря ни на что, после разумной нормализации бросают их в сверточную сеть для обучения модели и, наконец, достигают точности более 90%.
Нельзя сказать, что этот метод хорош или плох. С точки зрения бизнес-результатов полезно рассматривать сеть как черный ящик, вводить как можно больше характеристик, маркировать их и позволять сети работать до тех пор, пока это возможно. дают результаты, это хорошо.
Если эта операция расширена, при выборе функций в звуковом поле систематическая, всеобъемлющая, многомерная комбинация любой различной степени детализации в гибкие большие данные функций, относительно одно или небольшое количество комбинированных функций может использоваться в качестве сетевых входных данных. Модель обучения Имеет ли она больше преимуществ, стоит задуматься и изучить.
Для обучения на больших пространственных данных можно попробовать несколько методов:
1. Данные больших объектов в целом нормализуются, поскольку для обучения объединяются входные данные, одиночные входные данные, классическая сеть и различные сетевые структуры.
2. Данные крупных объектов в целом нормализуются и используются в качестве входных данных. Одни и те же данные вводятся разными способами, а различные сетевые структуры объединяются для обучения.
3. Для больших пространственных данных с разными размерами объектов и несколькими входными данными для обучения используется одна и та же сетевая структура и разные комбинации сетевых структур.
4. На основе третьего метода некоторые признаки напрямую вставляются в различные внутренние сетевые структуры в качестве промежуточных скрытых данных для комбинированного обучения.
В глубоком обучении базовые сети, такие как полносвязные сети, свертка, RNN и т. д., используют различные усовершенствованные линейные операции нейронов и различные операции нелинейной активации в пространственных и временных измерениях, чтобы улучшить свою собственную общую систему алгоритмов и разделить функции данных. Многоуровневая зависимость проектирования, моделирования функций и целевых результатов стала обычным алгоритмическим мышлением. Традиционное машинное обучение и распознавание образов, основанное на статистике, уязвимы в этом отношении. Как выскочки, предыдущие люди усердно работали, чтобы накопить десятилетия опыта в этой области, но непрофессионал разрушил его за несколько дней. лучше, чем у тебя.
Конечно, с точки зрения обучения и исследований классические модели алгоритмов, накопленные предыдущими поколениями, такие как HMM, GMM, CRF и т. д., могут не использоваться в последующем бизнесе, но такое алгоритмическое мышление стоит изучить и использовать. подготовлен к размышлению. «Сырьевые материалы» никогда не выходят из моды.
Где корни этих сетей? С алгоритмической точки зрения, это численные вычисления и численная оптимизация. В сети уровня числовых вычислений имеется большое количество операций по генерации строк. Естественно, они поддерживаются CUDA и различными BLAS. В теории оптимизации в большинстве случаев это проблема обучения скорости сходимости и колебаний. Накопление соответствующих теоретических исследований в настоящее время является относительно зрелым.
С инженерной точки зрения алгоритм обратного распространения ошибки, основанный на системе наискорейшего спуска, стал стандартом де-факто. Другие, такие как вывод второго порядка и метод Ньютона, всегда были нишевыми рынками, но проблема заключается в практике автоматического дифференциального проектирования. pytorch На данный момент сложность алгоритмов, таких как реализация различных сетевых структур и настройка различных сетевых структур, снизилась в геометрической прогрессии. Текущий способ игры больше зависит от глубины сети и различных комбинаций сети. Это может быть корнем. текущее местоположение сети.
Сейчас,вернуться вОбучение встроенной сети ,Эти основыиз По сути, сеть можно рассматривать какдаинтегральное преобразование,В сфере аудио существуют десятки классических интегральных преобразований.,Эти преобразования отличаются от алгоритмов классической модели в конкретных областях, накопленных предыдущими людьми.,Это сама по себе типичная весьма абстрактная математическая формула.,Поставляется с базой общих знаний.
первый способ
В качестве примера возьмем наиболее распространенный мел-спектр.,Давайте подумаем, что это своего рода преобразование STFT.,Мы можем напрямую использовать мел-спектр для обучения вводу данных в сеть.,Такой же,Мы можем записать мел-спектр в прямой расчет структуры сети.,В настоящее время вы можете напрямую использовать данные во временной области для обучения вводу данных в сеть.,В чем разница между двумя,Ответ без разницы,Раньше в качестве входных данных использовался мел-спектр.,Сейчас просто в начале сети не делается расчет мел-спектра.,Это может быть быстрее,Назови мне более стильное имя,Mel-CNN、CWT-Transformer、NSGT-RNN、CRF-LSTM、PCA-Inception и другие сети.
Второй способ
Расчет мел-спектра можно разместить в середине сети. В это время расчет мел-спектра можно использовать в качестве оператора для участия в прямых и обратных вычислениях, влияя при этом на обновление весовых параметров передних и задних нейронов. время, ее можно назвать Mel-CNN и т. д. Наконец, это шаг вперед, точнее, это функция активации mel-спектра.
Третий способ
mel-спектр имеет свои нейроны и начинает становиться настоящим сетевым слоем mel-спектра, такой же продлевать, класс как mel-спектр и т. д. интегральное преобразование,Ничего не работает,Это немного более сложный оператор и функция активации.,Если настройки нейрона добавить к измерениям пространства и времени, то расчет,Кто может гарантировать, что не появится следующая общая структура, подобная сверточным сетям?,конечно,Этот вид настройки требует сильных теоретических выводов и большого количества базовых тестов.,Этого достаточно для обоснования теоретической основы и объяснения бизнес-логики построения новой настройки проектной сети.
наконец,Десятки классических интегральных преобразований в области аудио плюс классические модели алгоритмов традиционного машинного обучения.,какОбучение встроенной сети,По крайней мере поле зрения гораздо шире,для бизнеса,Реальную реализацию сетевого уровня можно рассматривать как стандартное научное исследование.,Следует попробовать использовать функцию активации оператора.,Худший,Рассматривать их как входные характеристики разных измерений лучше, чем вообще ничего.,Еще одно измерение, еще одна функция, еще один выбор。
Эта статья обычно разделена на четыре части.,Алгоритм процессаПодробное описание объясняет每一步вычислить流程,Соответствующие деталиРассчитатьда Простой пошаговый процессиз细节点思考ипродлевать,различные масштабы、банк фильтров、кепстральный коэффициентСчитается важнымконцепцияи重要步骤из细节点思考ипродлевать,Вышеуказанные три части можно рассматривать как всю «углубленную» часть.,методологияда“мелкий”часть。
Подготовьте достаточно «сырья» для мышления, чтобы оно никогда не устарело.
Еще одно измерение, еще одна функция, еще один выбор