WikiDer > Аудио майнинг

Audio mining

Аудио майнинг - это метод, с помощью которого можно автоматически анализировать и искать содержимое аудиосигнала. Чаще всего используется в области автоматическое распознавание речи, где анализ пытается идентифицировать любую речь в аудио. Термин «аудиодайнинг» иногда используется как синонимы аудиоиндексации, фонетического поиска, фонетической индексации, индексации речи, аудиоаналитики и т. Д. речевая аналитика, определение слов и поиск информации. Аудиоиндексирование, однако, в основном используется для описания предварительной обработки аудиоданных, при которой аудиофайл разбивается на доступный для поиска индекс слов.

История

Академические исследования аудиодобычи начались в конце 1970-х в таких школах, как университет Карнеги-Меллона, Колумбийский университет, Технологический институт Джорджии и Техасский университет.[1] Индексирование и поиск аудиоданных стали привлекать внимание и пользоваться спросом в начале 1990-х годов, когда начал развиваться мультимедийный контент и объем аудиоконтента значительно увеличился.[2]До того, как майнинг звука стал основным методом, были созданы и вручную проанализированы письменные расшифровки аудиоконтента.[3]

Процесс

Аудиодобыча обычно делится на четыре компонента: индексирование аудио, системы обработки и распознавания речи, извлечение функций и классификация аудио.[4] Аудио обычно обрабатывается системой распознавания речи, чтобы идентифицировать слово или фонема единицы, которые могут встречаться в речевом контенте. Эту информацию можно либо сразу использовать в заранее заданном поиске по ключевым словам или фразам (система «определения слов» в реальном времени), либо выходные данные распознавателя речи могут быть сохранены в индексном файле. Один или несколько файлов индекса интеллектуального анализа звука могут быть загружены позже, чтобы выполнить поиск по ключевым словам или фразам. Результаты поиска обычно будут выражаться в показателях совпадений, которые представляют собой области в файлах, которые являются хорошими совпадениями для выбранных ключевые слова. Затем пользователь может прослушать звук, соответствующий этим совпадениям, чтобы проверить, было ли найдено правильное совпадение.

Индексирование аудио

В аудио есть основная проблема поиска информации - необходимо найти текстовые документы, содержащие ключ поиска. В отличие от людей, компьютер не может различать различные типы аудио, такие как скорость, настроение, шум, музыка или человеческая речь - необходим эффективный метод поиска. Следовательно, индексирование звука позволяет эффективно искать информацию, анализируя весь файл с помощью распознавания речи. Затем создается индекс контента, содержащий слова и их местонахождение, выполняемые посредством извлечения аудио на основе контента, с упором на извлеченные аудио функции.

Это выполняется в основном двумя методами: распознавание непрерывной речи большого словарного запаса (LVCSR) и индексирование на основе фонетики.

Распознаватели непрерывной речи с большим словарным запасом (LVCSR)

При индексировании на основе текста или распознавании непрерывной речи с большим словарным запасом (LVCSR) аудиофайл сначала разбивается на узнаваемые фонемы. Затем он проходит через толковый словарь который может содержать несколько сотен тысяч записей и сочетаться со словами и фразами для создания полнотекстовой расшифровки. Затем пользователь может просто выполнить поиск нужного слова, и будет возвращена соответствующая часть аудиоконтента. Если текст или слово не могут быть найдены в словаре, система выберет следующую наиболее похожую запись, которую сможет найти. Система использует модель понимания языка, чтобы создать уровень достоверности для своих совпадений. Если уровень достоверности будет ниже 100 процентов, система предоставит варианты всех найденных совпадений.[5]

Преимущества и недостатки

Главное достоинство LVCSR - высокая точность и высокая скорость поиска. В LVCSR, Статистические методы используются для прогнозирования вероятности появления различных последовательностей слов, поэтому точность намного выше, чем при поиске одного слова при фонетическом поиске. Если слово можно найти, вероятность произнесенного слова очень высока.[6] Между тем, хотя первоначальная обработка звука занимает довольно много времени, поиск выполняется быстро, поскольку требуется всего лишь простой тест на соответствие текста.

С другой стороны, LVCSR подвержен распространенным проблемам распознавание речи. Собственная случайная природа звука и проблемы внешнего шума - все это влияет на точность текстового индексирования.

Другой проблемой LVCSR является его чрезмерная зависимость от своей словарной базы данных. LVCSR распознает только те слова, которые находятся в их словарных базах данных, и эти словари и базы данных не могут идти в ногу с постоянным развитием новых терминология, имена и слова. Если словарь не содержит слова, система не сможет его идентифицировать или предсказать. Это снижает точность и надежность системы. Это называется проблемой нехватки словаря (OOV). Системы аудио-майнинга пытаются справиться с OOV, постоянно обновляя используемые словарь и языковую модель, но проблема все еще остается значительной и требует поиска альтернатив.[7]

Кроме того, из-за необходимости постоянно обновлять и поддерживать знания, основанные на задачах, и большие обучающие базы данных, чтобы справиться с проблемой OOV, возникают высокие вычислительные затраты. Это делает LVCSR дорогостоящим подходом к майнингу аудио.

Фонетическое индексирование

Фонетическое индексирование также разбивает аудиофайл на узнаваемые фонемы, но вместо преобразования их в текстовый индекс они сохраняются как есть и анализируются для создания фонетического индекса. Процесс фонетического индексирования можно разделить на две фазы. Первый этап - индексация. Он начинается с преобразования входного носителя в стандартный формат звукового представления (PCM). Затем к речи применяется акустическая модель. Эта акустическая модель представляет характеристики как акустического канала (среда, в которой была произнесена речь, и преобразователь, через который она была записана), так и естественного языка (на котором люди выражали входную речь). Это создает соответствующую фонетическую поисковую дорожку или фонетическую звуковую дорожку (PAT), сильно сжатое представление фонетического содержания входного носителя. Второй этап - поиск. Термин поискового запроса пользователя преобразуется в возможную строку фонемы с использованием фонетического словаря. Затем несколько файлов PAT можно сканировать с высокой скоростью во время одного поиска вероятных фонетических последовательностей, которые близко соответствуют соответствующим строкам фонем в термине запроса.[8][9]

Преимущества и недостатки

Фонетическое индексирование является наиболее привлекательным, поскольку на него практически не влияют языковые проблемы, такие как нераспознанные слова и орфографические ошибки. Фонетическая предварительная обработка поддерживает открытый словарь, не требующий обновления. Это делает его особенно полезным для поиска специальной терминологии или слов на иностранных языках, которые обычно не встречаются в словарях. Он также более эффективен для поиска аудиофайлов с мешающим фоновым шумом и / или нечеткими высказываниями, поскольку он может компилировать результаты на основе звуков, которые он может различить, и, если пользователь пожелает, он может искать варианты, пока не найдет желаемый элемент .[10]

Кроме того, в отличие от LVCSR, он может обрабатывать аудиофайлы очень быстро, поскольку между языками очень мало уникальных фонем. Однако фонемы не могут быть эффективно проиндексированы, как целое слово, поэтому поиск в фонетической системе выполняется медленно. [11]

Проблема с фонетическим индексированием - его низкая точность. Поиск по фонемам приводит к большему количеству ложных совпадений, чем индексирование на основе текста. Это особенно характерно для коротких поисковых запросов, которые с большей вероятностью будут похожи на другие слова или являться частью более крупных слов. Он также может возвращать нерелевантные результаты на других языках. Если система не распознает в точности слово целиком или не понимает фонетические последовательности языков, индексирование на основе фонетики может дать точные результаты. [12]

Система обработки и распознавания речи

Распознавание речи, считающееся наиболее важным и сложным компонентом интеллектуального анализа звука, требует знания системы воспроизведения речи человека и ее моделирования.

Чтобы соответствовать системе производства речи человека, система выработки электрической речи должна состоять из:

  • Генерация речи
  • Восприятие речи
  • Звонкая и глухая речь
  • Модель человеческой речи

Система создания электрической речи преобразует акустический сигнал в соответствующее представление речи через акустические модели в своем программном обеспечении, где представлены все фонемы. Статистический языковая модель помогает в этом процессе, определяя, насколько вероятно, что слова будут следовать друг за другом в определенных языках. В сочетании со сложным вероятностным анализом система распознавания речи способна принимать неизвестный речевой сигнал и преобразовывать его в слова на основе словаря программы.[13][14]

Система ASR (автоматическое распознавание речи) включает:

  • Акустический анализ: форма входного звукового сигнала преобразуется в функцию
  • Акустическая модель: устанавливает связь между речевым сигналом и фонемами, моделью произношения и языковой моделью. Алгоритмы обучения применяются к речевой базе данных для создания статистического представления каждой фонемы, таким образом создавая акустическую модель с набором фонем и их вероятностными мерами.
  • Модель произношения: Фонемы сопоставляются с определенными словами
  • Языковая модель: Слова организованы в содержательные предложения.

Некоторые приложения обработки речи включают распознавание речи, кодирование речи, аутентификацию говорящего, улучшение речи и синтез речи.

Извлечение признаков

Предварительным условием для всего процесса распознавания речи должно быть сначала установлено извлечение признаков в системе. Аудио файлы необходимо обрабатывать от начала до конца, чтобы не потерять важную информацию.

Путем дифференциации источников звука по высоте тона, тембральным характеристикам, ритмическим характеристикам, негармоничности, автокорреляции и другим характеристикам на основе предсказуемости сигнала, статистической модели и динамических характеристик.

Обеспечение стандартизации при извлечении функций регулируется международным Стандартные функции MPEG-7, где функции классификации звуковых или речевых сигналов фиксированы в терминах методов, используемых для анализа и представления необработанных данных в терминах определенных функций.

Стандартные методы извлечения речи:

  • Кодирование с линейным предсказанием (LPC) оценивает текущий образец речи, анализируя предыдущий образец речи
  • Кепстральный коэффициент Mel-частоты (MFCC) представляет речевой сигнал в параметрической форме с использованием мелкой шкалы
  • Перцепционное линейное предсказание (PLP) принимает во внимание человеческую речь

Однако эти три метода не идеальны, поскольку нестационарные сигналы игнорируются. Нестационарные сигналы можно анализировать с помощью Фурье и кратковременный Фурье, а изменяющиеся во времени сигналы анализируются с помощью Вейвлет и Дискретное вейвлет-преобразование (DWT).

Аудио Классификация

Аудиоклассификация - это форма контролируемое обучение, и включает в себя анализ аудиозаписей. Он разделен на несколько категорий: классификация акустических данных, классификация звуков окружающей среды, музыкальная классификация и классификация высказываний на естественном языке.[15] Для этого процесса часто используются следующие функции: подача, тембральные особенности, ритмические особенности, негармоничность, и корреляция звука, хотя могут использоваться и другие функции. Существует несколько методов классификации аудио с использованием существующих классификаторов, таких как k-Ближайшие соседи, или наивный байесовский классификатор. Используя аннотированные аудиоданные, машины учатся определять и классифицировать звуки.

Также было проведено исследование использования глубокие нейронные сети для распознавания речи и классификации аудио благодаря их эффективности в других областях, таких как классификация изображений.[16] Один из методов использования DNN - это преобразование аудиофайлов в файлы изображений посредством спектрограммы для проведения классификации.[17][18]

Приложения Audio Mining

Аудиомайнинг используется в таких областях, как музыкальный аудиомайнинг (также известный как поиск музыкальной информации), который относится к идентификации важных для восприятия характеристик музыкального произведения, таких как мелодическая, гармоническая или ритмическая структура. Затем можно выполнить поиск, чтобы найти музыкальные произведения, похожие по своим мелодическим, гармоническим и / или ритмическим характеристикам.

В области лингвистика, интеллектуальный анализ звука был использован для фонетической обработки и семантического анализа.[19] Эффективность майнинга звука при обработке аудиовизуальных данных помогает в идентификации и сегментации говорящих, а также в транскрипции текста. Посредством этого процесса речь может быть разделена на категории, чтобы идентифицировать информацию или извлекать информацию с помощью ключевых слов, произносимых в аудио. В частности, это использовалось для речевая аналитика. Колл-центры использовали эту технологию для проведения анализа в реальном времени, выявляя, среди прочего, изменения тона, настроения или высоты тона, которые затем обрабатываются механизмом принятия решений или искусственным интеллектом для принятия дальнейших действий.[20] Дальнейшее использование было замечено в областях распознавания речи и приложений преобразования текста в речь.

Он также использовался в сочетании с интеллектуальным анализом видео в таких проектах, как интеллектуальный анализ данных фильмов.

Смотрите также

Рекомендации

  1. ^ Ливитт, Нил (2002). «Давайте послушаем это для аудио-майнинга». Компьютер. 35 (10): 23–25. Дои:10.1109 / MC.2002.1039511.
  2. ^ Чжан, Чжунфэй; Чжан, Руофей (2008). Мультимедийный интеллектуальный анализ данных: систематическое введение в концепции и теорию. CRC Press. ISBN 9781584889670.
  3. ^ Ливитт, Нил (2002). «Давайте послушаем это для аудио-майнинга». Компьютер. 35 (10): 23–25. Дои:10.1109 / MC.2002.1039511.
  4. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи. Springer. ISBN 978-981-13-6098-5.
  5. ^ Ливитт, Нил (2002). «Давайте послушаем это для аудио-майнинга». Компьютер. 35 (10): 23–25. Дои:10.1109 / MC.2002.1039511.
  6. ^ Ливитт, Нил (2002). «Давайте послушаем это для аудио-майнинга». Компьютер. 35 (10): 23–25. Дои:10.1109 / MC.2002.1039511.
  7. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи. Springer. ISBN 978-981-13-6098-5.
  8. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи. Springer. ISBN 978-981-13-6098-5.
  9. ^ Ливитт, Нил (2002). «Давайте послушаем это для аудио-майнинга». Компьютер. 35 (10): 23–25. Дои:10.1109 / MC.2002.1039511.
  10. ^ Cardillo, P .; Clements, M .; Миллер, М. (2002). «Фонетический поиск по сравнению с LVCSR: как найти то, что вам действительно нужно, в аудиоархивах». Международный журнал речевых технологий. 5 (1): 9–22. Дои:10.1023 / А: 1013670312989. S2CID 36313454. Получено 23 апреля, 2020.
  11. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи. Springer. ISBN 978-981-13-6098-5.
  12. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи. Springer. ISBN 978-981-13-6098-5.
  13. ^ Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи. Springer. ISBN 978-981-13-6098-5.
  14. ^ Ливитт, Нил (2002). «Давайте послушаем это для аудио-майнинга». Компьютер. 35 (10): 23–25. Дои:10.1109 / MC.2002.1039511.
  15. ^ Лим, Хенгти. "Что такое аудио классификация?". Lionbridge. Получено 20 апреля 2020.
  16. ^ Smales, Майк. «Классификация звука с использованием глубокого обучения». Середина. Получено 20 апреля 2020.
  17. ^ Хартквист, Джон. «Классификация звука с использованием FastAI и преобразования частоты на лету». к науке о данных. Получено 20 апреля 2020.
  18. ^ Васани, Дипам. «Классификация звуков с использованием изображений, fastai». к науке о данных. Середина. Получено 21 апреля 2020.
  19. ^ Эззат, Сурая; Эль-Гаяр, Нямат; Ганем, Мустафа М. (2012). «Анализ тональности разговоров в колл-центре с использованием текстовой классификации» (PDF). Международный журнал компьютерных информационных систем и приложений промышленного управления. 4: 619–627.
  20. ^ Кли, Леонард. «Эпоха речевой аналитики близка». destinationCRM.com. Получено 12 апреля 2020.

дальнейшее чтение

Сен, Сумья; Дутта, Анджан; Дей, Ниланджан (2019). Обработка звука и распознавание речи. Springer. ISBN 978-981-13-6098-5.

Внешняя ссылка

Обработка звука и распознавание речи: концепции, методы и обзоры исследований