Мел-спектр и MFCC объяснены простыми словами
Мел-спектр и MFCC объяснены простыми словами

Предисловие

В области звука mel-спектр и mfcc являются очень важными функциональными данными. В области глубокого обучения эти служебные данные обычно используются в качестве модели входного обучения сети для решения различных служб классификации и разделения в области аудио, таких как Обнаружение конечной точки, распознавание ритма, распознавание аккордов, отслеживание высоты звука, классификация музыкальных инструментов, разделение источников звука, эхоподавление и другие сопутствующие услуги.

Конечно, для бизнеса в области глубокого обучения аудио вместо того, чтобы использовать эти две функции, выбирать несколько сетей, маркировать их, помещать данные для обучения и все, мы можем решить определенные аспекты вышеупомянутого бизнеса, основываясь только на две функции mel Spectrum и mfcc. В некоторых случаях этого недостаточно. Только ознакомившись с внутренней логикой, производными деталями и расширениями этих функций, вы сможете лучше объединить глубокое обучение для решения бизнес-задач.

Давайте объясним мел-спектр и характеристики mfcc Алгоритма. Процесс и некоторые детали, продлевать, с местной точки зрения, эти детали повлияют на детальные различия в окончательном представлении функций. То, как эти различия увеличиваются в точности и надежности результатов обучения модели, очень заслуживает изучения. качественные изменения ситуации, а качественные изменения, будь то положительные или отрицательные, стоят того, чтобы на них обратить внимание. наиз,Самое страшное, что никаких изменений при этом не произойдет;,Некоторые вопросы продлевата в широкой перспективе,Использование различных комбинаций функций, проектирование сетевой структуры и т. д. также являются очень важными источниками идей для решения бизнес-задач.

Алгоритм процесса

настраивать sr это частота дискретизации,fftLength длина кадра,slideLength длина скольжения

Ниже приведена приблизительная картина мел-спектра и mfcc. процессакартина。

flow_all.png
flow_all.png

1. Предварительный акцент

Как показано на блок-схеме, шаг 1 относится к предварительной обработке сигнала, которая компенсирует потерю высокочастотных компонентов и улучшает высокочастотные компоненты. В нормальных условиях этот шаг можно игнорировать. имеет определенный эффект улучшения характеристик. Формула выглядит следующим образом

x[n]=x[n]-\alpha x[n-1]

\alpha Обычно берет 0,97 Формула принадлежит дифференциальному фильтру верхних частот первого порядка.

2. Рамка

В действительности большинство сигналов нестационарны, но большинство из них можно приблизительно рассматривать как стационарные в течение короткого периода времени. Кратковременное преобразование Фурье можно использовать для выражения характеристик нестационарных сигналов в частотной области. Обычно для речи это время составляет около 10–30 мс, а для музыки оно может быть больше: 64–256 мс.

Обрамление предполагает перекрытие, которое обычно делается на 1/4 или 1/2 длины раздвижной рамы (перекрытие 3/4 или 1/2), т.е. слайдLength=\cfrac{fftLength}4 или\cfrac{fftLength}2

3. Добавляем окно (Окно)

Целью добавления окон является уменьшение утечки спектра, уменьшение частотных помех и улучшение эффектов спектра. По умолчанию не добавляется прямоугольное окно (Rect), что приводит к серьезной утечке помех. Как правило, добавление окна Ханна дает хорошие результаты. большинство сигналов. Формула выглядит следующим образом

w(n)=0.5\left( 1-\cos \left(2\pi \cfrac n{N} \right)\right) , 0 \le n \le N

Ханн — это косинусное окно, а N представляет порядок.

4. Кратковременное преобразование Фурье (STFT).

Оконное преобразование Фурье на основе кадров — это кратковременное преобразование Фурье. Анонс следующий

X(\tau,f)=\int_{-\infty}^\infty x(t)w(t-\tau)e^{-j2\pi f t}dt
X(m,k)=\sum_{n=0}^{N-1} x[n]W[n-m]e^{\frac{-j2\pi kn}{N} }

настройки Длина данных dataLength, t=\begin{cases} \cfrac{(dataLength-fftLength)}{slideLength}+1, &Нет отступов \\ \cfrac{dataLength}{slideLength}+1 , &наполнениеfftLength\end{cases}

STFT — стандартное математическое преобразование, которое представляет собой поле комплексного числа и имеет размер t*fftLength ,Чтобы выразить различие,в целомизнравиться|X(m,k)| Возьмите форму,Размерыt*(fftLength/2+1) Представленный в виде спектра STFT, существуют следующие типы спектра.

|X(m,k)| ,STFTамплитудный спектрundefined|X(m,k)|^2 ,STFTвласть Спектрundefined\log(|X(m,k)|) ,STFT dB(децибел)Спектрundefined20\log\left(\cfrac{|X(m,k)|}{fftLength}\right) , STFT стандартный спектр д Б

Примечание:

Спектр д Б представляет собой относительный спектр. Сложение, вычитание, умножение и деление не влияют на относительное значение частоты в д Б. Стандартный спектр д Б эквивалентен установлению базовой опорной линии для облегчения анализа и количественной оценки спектра. этого типа. undefinedИспользование обучения спектру д Б в глубоком обучении в большинстве случаев лучше, чем другие числовые типы спектра.

5. банк фильтровпроцесс(Filter bank)

Этот процесс является важным шагом в расчете критической части мел-спектра и mfcc. Блок-схема выглядит следующим образом

filterbank.png
filterbank.png

melшкала(scale)Это шкала сжатия журнала, основанная на измерителе слуховых настроек человека.,Человеческое ухо более чувствительно к низким частотам.,Не слишком чувствителен к высоким частотам.,Например, большинство людей могут различать 110 Гц и 116 Гц.,Но 4000 Гц и 4100 Гц практически неотличимы. Формула преобразования между шкалой мел и Гц выглядит следующим образом:

\begin{cases} mel=2595\log_{10}(1+\cfrac{hz}{700}) \\ hz=700(10^{\frac{mel}{2595}}-1) \end{cases}

Первые три шага на рисунке предназначены для расчета freBandArr, отображаемого по шкале mel, на основе границы частоты обслуживания и количества полос частот.

Следующий шаг — как сопоставить полосу частот STFT с полосой частот мел-шкалы.,Расчет с использованием полосы частот плюс треугольное окноmelшкалаизfilterBank matrix,Формула треугольного окна выглядит следующим образом.

w(n)=\begin{cases} \cfrac{2n}N, & 0 \le n \le \cfrac N{2} \\ 2-\cfrac{2n}N, & \cfrac N{2} \le n \le N \end{cases}

Как показано ниже

triang.png
triang.png

конечноэтотдасимметрияиз,Можно использовать симметричные линейные полосы частот.,Коэффициент полосовой логарифма, полученный по шкале Мела,Левое и правое не будут симметричны,В настоящее время использование треугольного окна асимметрично.,НижеmelшкалаизfilterBank matrixчиновник

w(k,h)=\begin{cases} \cfrac{h-f_{k-1}}{f_k-f_{k-1}}, & f_{k-1} \lt h\le f_k \\ \cfrac{f_{k+1}-h}{f_{k+1}-f_k} , & f_{k} \lt h\le f_{k+1} \\ 0, & other \end{cases}

Простая принципиальная схема приведена ниже.

filterBank_triang.png
filterBank_triang.png

наконец,общее использованиеSTFTвластьСпектриfilterBank matrixВыполните умножение матриц, чтобы получитьмелвластьспектр

6. Нелинейная коррекция (Ректификация)

К предыдущему шагумелвластьспектрВыбиратьlogОперация,Прямо сейчасспектр мел д БСразуда Обычно используетсяиз“melСпектр”,Вообще говоря, шаги 5 и 6 рассматриваются как единое целое.,Вместе их можно понимать как расчет мел-спектра.

Ниже приведена сравнительная таблица эффектов спектра STFT и мел-спектра (число = 128).

stft_mel.png
stft_mel.png

7. Дискретное косинусное преобразование (ДКП).

Дискретное косинусное преобразование, то есть реальное преобразование Фурье, где данные представляют собой четную функцию, имеет характеристики декорреляции и концентрации энергии. Формула выглядит следующим образом

X[k]=\sum_{n=0}^{N-1}x[n]e^{\frac{-j2\pi kn}{N} }=\sum_{n=0}^{N-1}x[n] \left[ \cos(\frac{2\pi kn}{N} )-j\sin( \frac{2\pi kn}{N} ) \right]

когда\sin(\theta)=0 , то есть преобразование ДКП, \cos(\theta)=0 , то есть преобразование DST.

Преобразование DCT — это отражение признаков после сильно декоррелированных данных. Из-за особенностей концентрации энергии оно широко используется в области сжатия данных. Обычно DCT учитывает выбор промежуточных точек, границ, методов и т. д. во время обработки данных. Анализ и продолжение Существует 8 соответствующих ситуаций. Обычно используется трансформация DCT-II, формула следующая.

X(k)=\sum_{n=0}^{N-1}x[n]\cos\left[\frac \pi{N}(n+\frac{1}2)k\right]

Мел-спектр получен после кепстрального преобразования ДКП. коэффициент(cepstral coeffs)Прямо сейчасMFCCs

8. Энергия и дельта

Расчет энергии и дельты является дополнительной операцией в системе функций mfcc.

Энергетическая характеристика эквивалентна добавлению смещения к mfcc, что оказывает определенный антишумовой эффект. Формула выглядит следующим образом.

energy=\sum_{n=1}^N x^2[n] =\frac{1}{N}\sum_{m=1}^N |X[m]|^2

По формуле,Может быть рассчитано во временной области,Его также можно рассчитать на основе частотной области.,Это очевидно,Динамический диапазон рассчитанного таким образом результата слишком мал.,в целом针对результат ВыбиратьlogОперация Прямо сейчасenergy=\log(\sum_{n=1}^N x^2[n] ) , также известный как журнал энергии, может заменить первое значение компонента постоянного тока mfcc или добавить первую позицию.

дельта - изменение расчетных данных, основанное на аппроксимации локального наклона текущей площади точки методом наименьших квадратов, формула имеет следующий вид

delta=\cfrac{\sum_{k=-M}^Mkx[k]}{\sum_{k=-M}^Mk^2}

M — порядок, который представляет собой нечетное число, обычно 9.

Рассчитайте его дельту для mfcc, а затем рассчитайте дельту дельты, которая может обнаруживать изменения в состоянии и изменениях mfcc. Его можно использовать как два набора вспомогательных функций mfcc для участия в обучении сетевой модели, что позволяет добиться лучших результатов. точность в некоторых случаях и способность к обобщению.

Соответствующие изображения mfcc следующие:

mfcc.png
mfcc.png

В целом,Подробное описание объясняетАлгоритм процессаКаждый этап расчета,Подробные мысли и точки расширения, включенные в некоторые этапы процессов, будут подробно обсуждаться ниже.

Соответствующие детали

1. вес-A计权

针对上面предварительный акцентспособ,По сути фильтр верхних частот,Он ослабляет низкие частоты.,Само по себе это не улучшит высокие частоты.,«Компенсация потери высокочастотных составляющих,«Улучшение высокочастотных составляющих» — это не слишком строго, но более наглядно.,Ослабление низких частот — это, условно говоря, замаскированное усиление высоких частот.,Это уменьшает динамический диапазон высоких и низких частот.

Почему нам следует уменьшать динамический диапазон высоких и низких частот? Есть ли лучший способ?

Выше говорилось, что «человеческое ухо более чувствительно к низким частотам.,Не слишком чувствителен к высоким частотам.”,Эта чувствительность предназначена для частотного разрешения.,По интенсивности частоты,В этом предложении все наоборот: человеческое ухо более чувствительно к высоким частотам.,Не очень чувствителен к низким частотам.,Возьмите гитарный инструмент в качестве примера.,Звук, получаемый в результате перетягивания самых толстых и самых тонких струн с одинаковой силой.,То есть физически интенсивность (амплитуда) обоих одинакова.,Но высокие частоты слышны громче низких.,Люди используют вес-A для количественной оценки этого психологического показателя «громкости».,Математически представляет сложение и вычитание логарифмических функций в разных диапазонах частот.,Эффект Как показано ниже。

weight_A.png
weight_A.png

Как показано на рисунке, вся полоса частот имеет не только затухания, но и реальные области усиления.

При обучении модели глубокого обучения для некоторых предприятий добавление веса A может повысить точность примерно на 4–5 %.

2. перекрытие перекрытие

Формирование кадров данных включает в себя две проблемы: длина кадра и перекрытие. Длина кадра определяет частотное разрешение в частотной области и временное разрешение во временной области. Чем больше длина кадра, тем точнее разрешение в частотной области и тем нечетче время. разрешение домена, но из-за нестационарных характеристик большинства сигналов они не могут быть бесконечно длинными. Чем короче длина кадра, тем точнее разрешение во временной области и тем размытее разрешение в частотной области.

Перекрывающиеся проблемы,Речь идет о скольжении относительно текущего кадра,Как указано вышеОбрамление流程所述в целом情况下滑动帧长из1/4или1/2,конечно,Длина скольжения также может быть равна длине рамы (переднее и заднее перекрытие равно 0),даже превышает длину кадра (без перекрытия,Прыжок вперед и назад).

Независимо от того, есть ли перекрытие, неперекрытие или скачок, разрешение во временной области само по себе не улучшается. Это можно понимать как выборку в различных временных интервалах в измерении t спектра. Небольшой слайд эквивалентен интерполяционному повышению разрешения спектрограммы. , а большой слайд эквивалентен пониженной дискретизации спектрограммы. Выборка — это связанный алгоритм в частотной области служб обнаружения конечных точек. Если сдвиг слишком мал или скачок слишком велик, это не даст хорошего эффекта. как показано в следующем сравнении эффектов.

overlap.png
overlap.png

Как вы можете видеть на картинке, фиолетовый и зеленый — это эффекты минимального скольжения и чрезмерных прыжков.

Для сервисов, связанных с обнаружением конечных точек, после выбора подходящей длины кадра обычно лучше скользить вперед и назад без перекрытия или с небольшим скачком.

3. функция окна окна

Целью использования окон во временной области является уменьшение утечки спектра.,В приведенном выше описании Алгоритма процесса,Обычно добавляйте окно Ханна,Но есть много оконных функций,Такие как Трианг,Hann,Hamm,Guass,Kaiser,Flattop,Блэкман и так далее.

Как выбирать разные окна в некоторых компаниях, занимающихся глубоким обучением, как выбор разных окон влияет на обучение и результаты модели или какие окна стоит попробовать в бизнесе?

Стоит попробовать Гуасса и Кайзера. Формула следующая.

\begin{cases} guass(n)=e^{-n^2/2\sigma^2} =e^{ -\frac12 \left( \alpha \frac{n}{ (N-1)/2 } \right)^2} , -(N-1)/2 \le n \le (N-1)/2 \\ kaiser(n)=\cfrac {I_0 \left( \beta \sqrt{1- \left( { \cfrac {n-N/2}{N/2} } \right)^2 } \right) } {I_0(\beta)} , 0 \le n \le N \end{cases}

Для Гуасса:

\sigma=(N-1)/(2\alpha) , Оба обратно пропорциональны друг другу, не определено. по умолчанию\alpha=2.5

Для Кайзера:

I_0(\beta) Модифицированная функция Бесселя нулевого порядка первого рода может быть рассчитана по следующему ряду формул: I_0(\beta)=1+\sum_{k=1}^{\infty} \left[ \cfrac1{k!} \left (\cfrac \beta 2 \right)^k \right] ^2 , обычно товары стоимостью около 15$ не определены по умолчанию\beta=5

По сравнению с большинством других окон, окна Гаусса и Кайзера являются переменными. Обычно, чем больше ширина окна, тем выше разрешение, тем меньше зона перехода, но затухание в полосе задерживания обычно больше, чем уже ширина окна, тем тоньше; Разрешение большое, зона перехода больше, но затухание в полосе задерживания меньше.

Для Guass и Kaiser, двух окон с регулируемой шириной, вы можете максимизировать затухание боковых лепестков в некоторых сервисах. При обучении бизнес-моделей глубокого обучения с соответствующими спектральными характеристиками вы можете добиться хорошей производительности.

4. исправление нелинейной коррекции

В приведенном выше описании Алгоритма процесса,Вообще говоря, комбинация шагов 5 и 6 представляет собой стандартный результат представления спектра.,Но извласть СпектрНелинейный угол коррекции,

Существует более одного вида функции журнала. Конечно, журнал является наиболее важным и часто используемым. Вы можете использовать кубический корень (кубический корень), Relu-подобные и другие методы.

С точки зрения глубокого обучения мел-подобный спектр можно рассматривать как расчет сетевого уровня, а нелинейные операции, такие как логарифм и кубический корень, можно рассматривать как функции активации.

с этой точки зрения,Для разных бизнесов,Различные варианты активации функций плана настройки,Влияние на обучение моделей и результаты может оказаться потрясающим.,Это того стоит в сфере исследований и разработоксосредоточиться на Точку тестирования.

различные масштабы

1. Другие масштабы

Мел-спектр так хорошо известен. Правда ли, что для глубокого обучения в области аудио требуется только мел-спектр? Конечно, нет, в некоторых случаях мел-спектр не обязательно оптимален.

Как указано выше Алгоритм процесса Описаниеmelшкалаизобъяснять,Это шкала сжатия журнала, основанная на измерителе слуховых настроек человека.,Более точная модель человеческого слуха будет разработана позже.,Шкала Барка и ERB,Формула выглядит следующим образом

bark=\frac{26.81hz}{1960+hz}-0.53, \quad hz=1960(\frac{bark+0.53}{26.81-bark})
\quad erb=A\log_{10}{(1+0.00437hz)}, \quad hz=\frac{10^{\frac{erb}A}-1}{0.00437}
A=\frac{1000\ln(10)}{(24.7)(4.37)}

2. Gammatone filter

g(t)=at^{n-1}e^{-2\pi bt}\cos(2\pi f_ct+\phi)

Официально в процессе at^{n-1}e^{-2\pi bt} часть \Gamma формальная функция,\cos Понимаемый как тон, он называется гамматоном.

Вообще говоря, шкала ERB в модели слуха человека связана с полосой пропускания гамматонового фильтра, то есть b — полоса пропускания шкалы ERB.

Найти АЧХ на основе этого фильтра очень сложно.,Можно привести только приблизительные формулы,Вывод формул в статье занимает более 20 страниц.,Он превысил исследовательский предел большинства людей,Прямо сейчасвозьми бумагуизрезультатчиновник Это непросто реализовать непосредственно посредством программирования.。УдачливыйиздаaudioFluxПроекты с открытым исходным кодом имеют сравнительные стандартыизвыполнить,Заинтересованные друзья могут изучить это.

3. Масштабировать спектр

Помимо вышеуказанной шкалы,Существует также октавная шкала, основанная на музыкальных октавах.,Более общий масштаб журнала и т. д.,На основании вышеизложенногоАлгоритм процесса,Мел-шкала создает мел-спектр и характеристики mfcc,тот же процесс,Шкала bark/erb дает соответствующий спектр bark/erb и соответствующий кепстральный коэффициент.,что-то другоемасштабировать Сравнительная таблица спектра выглядит следующим образом.

scale.png
scale.png

Больше разных масштабировать спектр Типы, которые вы можете попробовать использоватьaudioFluxтестирование библиотеки。

4. Возможные проблемы

В некоторых отраслях, например, связанных с музыкальными инструментами, могут возникнуть некоторые незначительные проблемы во всех вышеперечисленных масштабах. Для низкочастотных диапазонов некоторые из них могут быть меньше минимального разрешения STFT. В настоящее время это очевидно бессмысленно и бессмысленно. будет вызвано дополнительное интерференционное расхождение. Эффект: для среднечастотных диапазонов некоторые из них могут быть слишком большими, а разрешение для высокочастотных диапазонов может быть недостаточно большим, а разрешение все еще относительно небольшим;

При вышеуказанных обстоятельствах в некоторых предприятиях и определенных сетевых структурах разница в разрешении между средними и низкими частотами может привести к несоответствию модели обучения, что затруднит достижение определенной точности, или разрешение высокочастотных частот будет неудовлетворительным. слишком маленький может привести к тому, что модель обучения не подходит и имеет плохую способность к обобщению. В этом случае вы можете попробовать следующие методы:

1. Соответствующим образом добавьте наборы данных, настройте структуру и параметры сети и другие распространенные методы.

2. Добавьте входные данные разных размерностей, чтобы сеть могла найти оптимальное решение или выйти за пределы локального оптимального решения.

3. Настройте масштаб. Теперь, когда причина ясна, начните с оптимизации самой функции.

Подводя итог, можно сказать, что спектральные данные, полученные в разных масштабах, будут иметь разные различия в деталях высоких и низких частот, накоплении энергии и контрастности. Эта разница усиливается в некоторых бизнес-практиках. Существует множество попыток изучить точность и надежность модели. . ценить.

В некоторых компаниях, занимающихся глубоким обучением, если соответствующие функции по шкале мела могут дать результаты, использование функций, связанных с корой, для их замены часто будет иметь определенный эффект.

банк фильтров

1. Концепция

В цифровых сигналах фильтры включают в себя базовые фильтры верхних частот и фильтры нижних частот. Полосовые фильтры могут состоять из последовательно соединенных фильтров нижних и верхних частот. Банк фильтров можно понимать как несколько полосовых фильтров.

банк Фильтры — это матрица отображения, которая представляет взаимосвязь отображения между линейными полосами частот STFT и полосами частот в разных масштабах. Что касается способа сопоставления, это алгоритм. Процесс описывает метод функции треугольного окна на шаге 5, Фильтр треугольного окна bankКак показано ниже показано

filterBank_triang.png
filterBank_triang.png

2. Нормализация

Как показано на рисунке выше, полоса частот, генерируемая общей шкалой, имеет небольшую полосу низких частот и все большую полосу высоких частот, что означает, что длинная полоса в области высоких частот будет участвовать в расчете отображения текущая частотная составляющая, которая явно неразумна по сравнению с низкими частотами. В это время банк фильтров необходимо нормализовать.

Метод нормализации имеет два метода: пропускную способность и площадь. Нормализация метода пропускной способности имеет следующий эффект: Как показано ниже.

filterBank_triang_norm.png
filterBank_triang_norm.png

3. Разные окна

Для расчета банка фильтров существует только метод треугольной оконной функции. Конечно, нет, вы можете использовать такие оконные функции, как Rect, Hann, Hamm и т. д. Gammatone также является специальной оконной функцией. даже не нужно рассчитывать. Ниже приведена сравнительная таблица банков фильтров в нескольких разных окнах.

filterBank_compare.png
filterBank_compare.png

Ниже приведена таблица сравнения спектра в разных окнах.

style.png
style.png

На рисунке Slaney и ETSI — два разных типа треугольных окон.,Можно попробовать и другие тесты типа окон.audioFluxБиблиотека。

4. Добавить оконный метод

Существует множество методов уточнения обработки перекрытия оконных функций. Переднее и заднее окна полосы частот перекрываются. Общий метод обработки заключается в том, что точка перекрытия больше не будет участвовать в предыдущем расчете, а точка перекрытия больше не будет участвовать. в последующем расчете, как показано на рисунке ниже.

window_way.png
window_way.png

Если функцию окна каждой полосы частот можно масштабировать одинаково,Таким образом, полосы частот в разных масштабах становятся регулируемыми.,Различные варианты ширины для оконных функций,Соответствует различным изменениям частотно-временного разрешения,объединитьPWT(псевдовейвлет-преобразование),Просто другой видCWTЭффектизэквивалентные варианты,отличается отCWTпарная волновая функцияиз Квалификационные требования,CWT можно изучать с помощью более широкого диапазона оконных функций.

Таким образом, для фильтра bankизвычислить,Какие окна следует добавить? Как добавить окна? Какой метод нормализации?Использование этих комбинаций позволяет получить более детальную информацию.изразные характеристики,Насколько точна и надежна обученная модель?,Это очень стоит попробовать изучить.

кепстральный коэффициент

1. Концепция

Что такое кепстральный коэффициент, почему после расчета DCT кепстральный? коэффициент?

Стандартная формула кепстра определяется следующим образом:

C(r)=F\{\log(F\{f(t)\})\}

После того, как данные преобразованы с помощью БПФ и снят журнал, преобразование БПФ обычно называется кепстром. В более широком смысле данные временной области преобразуются в данные частотной области посредством БПФ, а данные частотной области снова.

Преобразование БПФ — это преобразование кепстра.

ДКП является частным случаем ДПФ.,Следовательно, преобразование ДКП снова для предыдущего результата БПФ соответствует определению приведенной выше концепции формулы.,Также известен как кепстральный коэффициент;по сравнению сDFT,Энергия DCT более концентрированная,Эквивалент повторного сжатия данных спектра.,Небольшое количество коэффициентов может отражать сильно декоррелированные характеристики данных.

2. Приложение «Цепстр»

Что можно сделать с инвертированным спектром?

Он может оценивать высоту тона, может использоваться как способ деконволюции, разделения сигналов, расчета огибающей/форманты и т. д.

Формула вывода деконволюции выглядит следующим образом.

\begin{cases} x(t)=g(t)*h(t) \\ F\{x(t)\}=X(\omega)=G(\omega)H(\omega) \\ \log X(\omega)=\hat X(\omega)=\hat G(\omega)+\hat H(\omega) \\ F^{-1}\{\hat X(\omega)\}=\hat x(k)=\hat g(k)+\hat h(k) \end{cases}

3. расширение

Дробное преобразование Фурье (FRFT)

Согласно определению кепстра, если мы расширим его, сможем ли мы выполнить несколько БПФ. В чем смысл нескольких БПФ? Расширение множественных преобразований заключается в следующем:

F^2=F(F(x))
F^n(x)=F^{(n-1)}(F(x))

настраиватьn=\frac{2\phi}\pi , определенный после замены

F_\phi(x)=F^{2\phi/\pi}(x)

После цитирования $\phi$,Порядок преобразования БПФ может быть нецелым, то есть дробным преобразованием Фурье.,Физический смысл заключается в повороте спектра на определенный угол.,Спектр можно анализировать еще в одном измерении.,Это также приносит другие расширения концепции.,Например, дробная свертка и так далее.

методология

1. Обучение большим функциям

Однажды я видел небольшой бизнес, занимающийся классификацией аудио за рубежом. Входные данные сети включают энергию во временной области, среднеквадратическое значение, скорость перехода через нуль, среднее значение, дисперсию, ковариацию, асимметрию, эксцесс, момент, медиану и десятки медиан во временной области. связанные статистические характеристики, такие как числа, коэффициенты корреляции и т. д., несмотря ни на что, после разумной нормализации бросают их в сверточную сеть для обучения модели и, наконец, достигают точности более 90%.

Нельзя сказать, что этот метод хорош или плох. С точки зрения бизнес-результатов полезно рассматривать сеть как черный ящик, вводить как можно больше характеристик, маркировать их и позволять сети работать до тех пор, пока это возможно. дают результаты, это хорошо.

Если эта операция расширена, при выборе функций в звуковом поле систематическая, всеобъемлющая, многомерная комбинация любой различной степени детализации в гибкие большие данные функций, относительно одно или небольшое количество комбинированных функций может использоваться в качестве сетевых входных данных. Модель обучения Имеет ли она больше преимуществ, стоит задуматься и изучить.

Для обучения на больших пространственных данных можно попробовать несколько методов:

1. Данные больших объектов в целом нормализуются, поскольку для обучения объединяются входные данные, одиночные входные данные, классическая сеть и различные сетевые структуры.

2. Данные крупных объектов в целом нормализуются и используются в качестве входных данных. Одни и те же данные вводятся разными способами, а различные сетевые структуры объединяются для обучения.

3. Для больших пространственных данных с разными размерами объектов и несколькими входными данными для обучения используется одна и та же сетевая структура и разные комбинации сетевых структур.

4. На основе третьего метода некоторые признаки напрямую вставляются в различные внутренние сетевые структуры в качестве промежуточных скрытых данных для комбинированного обучения.

2. Обучение встроенной сети

В глубоком обучении базовые сети, такие как полносвязные сети, свертка, RNN и т. д., используют различные усовершенствованные линейные операции нейронов и различные операции нелинейной активации в пространственных и временных измерениях, чтобы улучшить свою собственную общую систему алгоритмов и разделить функции данных. Многоуровневая зависимость проектирования, моделирования функций и целевых результатов стала обычным алгоритмическим мышлением. Традиционное машинное обучение и распознавание образов, основанное на статистике, уязвимы в этом отношении. Как выскочки, предыдущие люди усердно работали, чтобы накопить десятилетия опыта в этой области, но непрофессионал разрушил его за несколько дней. лучше, чем у тебя.

Конечно, с точки зрения обучения и исследований классические модели алгоритмов, накопленные предыдущими поколениями, такие как HMM, GMM, CRF и т. д., могут не использоваться в последующем бизнесе, но такое алгоритмическое мышление стоит изучить и использовать. подготовлен к размышлению. «Сырьевые материалы» никогда не выходят из моды.

Где корни этих сетей? С алгоритмической точки зрения, это численные вычисления и численная оптимизация. В сети уровня числовых вычислений имеется большое количество операций по генерации строк. Естественно, они поддерживаются CUDA и различными BLAS. В теории оптимизации в большинстве случаев это проблема обучения скорости сходимости и колебаний. Накопление соответствующих теоретических исследований в настоящее время является относительно зрелым.

С инженерной точки зрения алгоритм обратного распространения ошибки, основанный на системе наискорейшего спуска, стал стандартом де-факто. Другие, такие как вывод второго порядка и метод Ньютона, всегда были нишевыми рынками, но проблема заключается в практике автоматического дифференциального проектирования. pytorch На данный момент сложность алгоритмов, таких как реализация различных сетевых структур и настройка различных сетевых структур, снизилась в геометрической прогрессии. Текущий способ игры больше зависит от глубины сети и различных комбинаций сети. Это может быть корнем. текущее местоположение сети.

Сейчас,вернуться вОбучение встроенной сети ,Эти основыиз По сути, сеть можно рассматривать какдаинтегральное преобразование,В сфере аудио существуют десятки классических интегральных преобразований.,Эти преобразования отличаются от алгоритмов классической модели в конкретных областях, накопленных предыдущими людьми.,Это сама по себе типичная весьма абстрактная математическая формула.,Поставляется с базой общих знаний.

первый способ

В качестве примера возьмем наиболее распространенный мел-спектр.,Давайте подумаем, что это своего рода преобразование STFT.,Мы можем напрямую использовать мел-спектр для обучения вводу данных в сеть.,Такой же,Мы можем записать мел-спектр в прямой расчет структуры сети.,В настоящее время вы можете напрямую использовать данные во временной области для обучения вводу данных в сеть.,В чем разница между двумя,Ответ без разницы,Раньше в качестве входных данных использовался мел-спектр.,Сейчас просто в начале сети не делается расчет мел-спектра.,Это может быть быстрее,Назови мне более стильное имя,Mel-CNN、CWT-Transformer、NSGT-RNN、CRF-LSTM、PCA-Inception и другие сети.

Второй способ

Расчет мел-спектра можно разместить в середине сети. В это время расчет мел-спектра можно использовать в качестве оператора для участия в прямых и обратных вычислениях, влияя при этом на обновление весовых параметров передних и задних нейронов. время, ее можно назвать Mel-CNN и т. д. Наконец, это шаг вперед, точнее, это функция активации mel-спектра.

Третий способ

mel-спектр имеет свои нейроны и начинает становиться настоящим сетевым слоем mel-спектра, такой же продлевать, класс как mel-спектр и т. д. интегральное преобразование,Ничего не работает,Это немного более сложный оператор и функция активации.,Если настройки нейрона добавить к измерениям пространства и времени, то расчет,Кто может гарантировать, что не появится следующая общая структура, подобная сверточным сетям?,конечно,Этот вид настройки требует сильных теоретических выводов и большого количества базовых тестов.,Этого достаточно для обоснования теоретической основы и объяснения бизнес-логики построения новой настройки проектной сети.

наконец,Десятки классических интегральных преобразований в области аудио плюс классические модели алгоритмов традиционного машинного обучения.,какОбучение встроенной сети,По крайней мере поле зрения гораздо шире,для бизнеса,Реальную реализацию сетевого уровня можно рассматривать как стандартное научное исследование.,Следует попробовать использовать функцию активации оператора.,Худший,Рассматривать их как входные характеристики разных измерений лучше, чем вообще ничего.,Еще одно измерение, еще одна функция, еще один выбор。

Подвести итог

Эта статья обычно разделена на четыре части.,Алгоритм процессаПодробное описание объясняет每一步вычислить流程,Соответствующие деталиРассчитатьда Простой пошаговый процессиз细节点思考ипродлевать,различные масштабыбанк фильтровкепстральный коэффициентСчитается важнымконцепцияи重要步骤из细节点思考ипродлевать,Вышеуказанные три части можно рассматривать как всю «углубленную» часть.,методологияда“мелкий”часть。

Подготовьте достаточно «сырья» для мышления, чтобы оно никогда не устарело.

Еще одно измерение, еще одна функция, еще один выбор

boy illustration
Неразрушающее увеличение изображений одним щелчком мыши, чтобы сделать их более четкими артефактами искусственного интеллекта, включая руководства по установке и использованию.
boy illustration
Копикодер: этот инструмент отлично работает с Cursor, Bolt и V0! Предоставьте более качественные подсказки для разработки интерфейса (создание навигационного веб-сайта с использованием искусственного интеллекта).
boy illustration
Новый бесплатный RooCline превосходит Cline v3.1? ! Быстрее, умнее и лучше вилка Cline! (Независимое программирование AI, порог 0)
boy illustration
Разработав более 10 проектов с помощью Cursor, я собрал 10 примеров и 60 подсказок.
boy illustration
Я потратил 72 часа на изучение курсорных агентов, и вот неоспоримые факты, которыми я должен поделиться!
boy illustration
Идеальная интеграция Cursor и DeepSeek API
boy illustration
DeepSeek V3 снижает затраты на обучение больших моделей
boy illustration
Артефакт, увеличивающий количество очков: на основе улучшения характеристик препятствия малым целям Yolov8 (SEAM, MultiSEAM).
boy illustration
DeepSeek V3 раскручивался уже три дня. Сегодня я попробовал самопровозглашенную модель «ChatGPT».
boy illustration
Open Devin — инженер-программист искусственного интеллекта с открытым исходным кодом, который меньше программирует и больше создает.
boy illustration
Эксклюзивное оригинальное улучшение YOLOv8: собственная разработка SPPF | SPPF сочетается с воспринимаемой большой сверткой ядра UniRepLK, а свертка с большим ядром + без расширения улучшает восприимчивое поле
boy illustration
Популярное и подробное объяснение DeepSeek-V3: от его появления до преимуществ и сравнения с GPT-4o.
boy illustration
9 основных словесных инструкций по доработке академических работ с помощью ChatGPT, эффективных и практичных, которые стоит собрать
boy illustration
Вызовите deepseek в vscode для реализации программирования с помощью искусственного интеллекта.
boy illustration
Познакомьтесь с принципами сверточных нейронных сетей (CNN) в одной статье (суперподробно)
boy illustration
50,3 тыс. звезд! Immich: автономное решение для резервного копирования фотографий и видео, которое экономит деньги и избавляет от беспокойства.
boy illustration
Cloud Native|Практика: установка Dashbaord для K8s, графика неплохая
boy illustration
Краткий обзор статьи — использование синтетических данных при обучении больших моделей и оптимизации производительности
boy illustration
MiniPerplx: новая поисковая система искусственного интеллекта с открытым исходным кодом, спонсируемая xAI и Vercel.
boy illustration
Конструкция сервиса Synology Drive сочетает проникновение в интрасеть и синхронизацию папок заметок Obsidian в облаке.
boy illustration
Центр конфигурации————Накос
boy illustration
Начинаем с нуля при разработке в облаке Copilot: начать разработку с минимальным использованием кода стало проще
boy illustration
[Серия Docker] Docker создает мультиплатформенные образы: практика архитектуры Arm64
boy illustration
Обновление новых возможностей coze | Я использовал coze для создания апплета помощника по исправлению домашних заданий по математике
boy illustration
Советы по развертыванию Nginx: практическое создание статических веб-сайтов на облачных серверах
boy illustration
Feiniu fnos использует Docker для развертывания личного блокнота Notepad
boy illustration
Сверточная нейронная сеть VGG реализует классификацию изображений Cifar10 — практический опыт Pytorch
boy illustration
Начало работы с EdgeonePages — новым недорогим решением для хостинга веб-сайтов
boy illustration
[Зона легкого облачного игрового сервера] Управление игровыми архивами
boy illustration
Развертывание SpringCloud-проекта на базе Docker и Docker-Compose