WikiDer > Частотно-временной анализ музыкальных сигналов

Time–frequency analysis for music signals

Частотно-временной анализ музыкальных сигналов это одно из приложений частотно-временной анализ. Музыкальный звук может быть сложнее человеческого вокала, занимая более широкую полосу частот. Музыкальные сигналы - это изменяющиеся во времени сигналы; в то время как классического преобразования Фурье недостаточно для их анализа, частотно-временной анализ является эффективным инструментом для такого использования. Частотно-временной анализ является продолжением классического подхода Фурье. Кратковременное преобразование Фурье (STFT), Преобразование Габора (GT) и Функция распределения Вигнера (WDF) - известные частотно-временные методы, полезные для анализа музыкальных сигналов, таких как ноты, сыгранные на пианино, флейте или гитаре.

Знания о музыкальном сигнале

Музыка - это звук, который имеет стабильные частоты в определенный период времени. Музыка может быть произведена несколькими способами. Например, звук фортепиано получается при ударе струны, а звук скрипки производит поклон. Все музыкальные звуки имеют свои основная частота и обертоны. Основная частота - это самая низкая частота в гармоническом ряду. В периодическом сигнале основная частота обратно пропорциональна длине периода. Обертоны - это целые числа, кратные основной частоте.

Стол. 1 основная частота и обертон
Частота	Заказ
ж = 440 Гц	N = 1	Основная частота	1-я гармоника
ж = 880 Гц	N = 2	1-й обертон	2-я гармоника
ж = 1320 Гц	N = 3	2-й обертон	3-я гармоника
ж = 1760 Гц	N = 4	3-й обертон	4-я гармоника

В музыкальная теория, высота звука представляет собой воспринимаемую основную частоту звука. Однако фактическая основная частота может отличаться от воспринимаемой основной частоты из-за обертонов.

Кратковременное преобразование Фурье

Рис.1 Форма волны аудиофайла "Chord.wav"^[куда?]

Рис.2 Преобразование Габора для "Chord.wav"

Рис. 3 Спектрограмма "Chord.wav"

Непрерывный STFT

Кратковременное преобразование Фурье - это основной тип частотно-временного анализа. Если есть непрерывный сигнал Икс(т), мы можем вычислить кратковременное преобразование Фурье с помощью

{ Displaystyle mathbf {STFT} влево {х (т) вправо } эквив X (т, е) = int _ {- infty} ^ { infty} х ( тау) ш (т - tau) e ^ {- j2 pi f tau} , d tau}

куда ш(т) это оконная функция. Когда ш(т) - прямоугольная функция, преобразование называется Rec-STFT. Когда ш(т) - гауссова функция, преобразование называется Преобразование Габора.

Дискретный STFT

Однако обычно музыкальный сигнал не является непрерывным. Он выбирается с частотой дискретизации. Следовательно, мы не можем использовать эту формулу для вычисления кратковременного преобразования Фурье Rec. Меняем исходную форму на

{ Displaystyle Икс (п , Delta t, m , Delta f) = sum _ {p = nQ} ^ {n + Q} x (p , Delta t) e ^ {- j2 pi pm , Delta t , Delta f} , Delta t}

Позволять ${ Displaystyle т = п , дельта т}$ , ${ displaystyle f = m , Delta f}$ , ${ displaystyle tau = p , Delta t}$ и ${ Displaystyle B = Q , Delta t}$ . Есть некоторые ограничения дискретного кратковременного преобразования Фурье:

${ Displaystyle Delta t , Delta f = { frac {1} {N}},}$ куда N целое число.
${ Displaystyle N geq 2Q + 1}$
${ displaystyle Delta <{ frac {1} {2f _ { max}}}}$ , куда ${ displaystyle f _ { max}}$ это самая высокая частота в сигнале.

Пример STFT

На рис.1 показана форма волны аудиофайла фортепианной музыки с частотой дискретизации 44100 Гц. На рис.2 показан результат кратковременного преобразования Фурье (мы используем здесь преобразование Габора) аудиофайла. Как видно из частотно-временного графика, из т = От 0 до 0,5 секунды, есть аккорд с тремя нотами, и аккорд изменяется в т = 0,5, а затем снова изменилось прит = 1. Основная частота каждой ноты в каждом аккорде показана на графике время-частота.

Спектрограмма

На рисунке 3 показан спектрограмма аудиофайла, показанного на рисунке 1. Спектрограмма представляет собой квадрат STFT, изменяющееся во времени спектральное представление. Спектрограмма сигнала s(т) можно оценить, вычислив квадрат величина STFT сигнала s(т), как показано ниже:

{ displaystyle mathbf {спектрограмма} (t, f) = left | mathbf {STFT} (t, f) right | ^ {2}}

Хотя спектрограмма очень полезна, у нее все же есть один недостаток. Он отображает частоты в единой шкале. Однако музыкальные шкалы основаны на логарифмической шкале частот. Следовательно, мы должны описать частоту в логарифмической шкале, относящейся к человеческому слуху.

Функция распределения Вигнера

В Функция распределения Вигнера также может использоваться для анализа музыкальных сигналов. Преимущество функции распределения Вигнера - высокая четкость вывода; тем не менее, это дорого с точки зрения вычислений и сопряжено с межчеловеческими проблемами, поэтому лучше анализировать сигналы, не используя более одной частоты одновременно.

Формула

Функция распределения Вигнера ${ Displaystyle W_ {х} (т, е)}$ является:

{ displaystyle mathbf {W} _ {x} (t, f) = int _ {- infty} ^ { infty} x (t + tau / 2) x ^ {*} (t- tau / 2) e ^ {- j2 pi tau , f} , d tau,}

куда Икс(т) - сигнал, а Икс*(т) - сопряженная с сигналом.

Смотрите также

Источники

Хоан Серра, Эмилия Гомес, Перфекто Эррера и Ксавье Серра, «Бинарное сходство цветности и локальное выравнивание, применяемые для идентификации кавер-версий», август 2008 г.
Уильям Дж. Пилемайер, Грегори Х. Уэйкфилд и Мэри Х. Симони, "Частотно-временной анализ музыкальных сигналов", сентябрь 1996 г.
Джереми Ф. Алм и Джеймс С. Уокер, "Частотно-временной анализ музыкальных инструментов", 2002 г.
Моника Дорфлер, "Что может сделать частотно-временной анализ с музыкальными сигналами", апрель 2004 г.
ЭнШуо Цау, Намгук Чо и К.-К. Джей Куо, "Оценка основной частоты музыкальных сигналов с модифицированными Преобразование Гильберта – Хуанга"Международная конференция по мультимедиа и выставкам IEEE, 2009 г.

Navigation