WikiDer > Программное обеспечение для распознавания речи для Linux
Эта статья поднимает множество проблем. Пожалуйста помоги Улучши это или обсудите эти вопросы на страница обсуждения. (Узнайте, как и когда удалить эти сообщения-шаблоны) (Узнайте, как и когда удалить этот шаблон сообщения)
|
По состоянию на начало 2000-х годов несколько распознавание речи (SR) программные пакеты существуют для Linux. Некоторые из них бесплатное программное обеспечение с открытым исходным кодом и другие проприетарное программное обеспечение. Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для передачи рабочих команд компьютеру.
Распознавание речи в Linux
История
В конце 1990-х годов Linux-версия ViaVoice, сделано IBM, был предоставлен пользователям бесплатно. В 2002 г. бесплатный комплект для разработки программного обеспечения (SDK) удален разработчиком.
Статус разработки
В начале 2000-х годов возникла потребность разработать высококачественный механизм распознавания речи для Linux. В результате было начато несколько проектов, посвященных созданию программ распознавания речи в Linux, таких как Майкрофт, который похож на Microsoft Кортана, но с открытым исходным кодом.
Краудсорсинг речевого образца
Очень важно составить речевой корпус производить акустические модели за распознавание речи проекты. VoxForge - это корпус свободы слова и репозиторий акустических моделей, который был создан с целью сбора расшифрованной речи для использования в проектах распознавания речи. VoxForge принимает краудсорсинг образцы речи и исправления распознанных речевых последовательностей. Он лицензирован под Стандартная общественная лицензия GNU (GPL).
Концепция распознавания речи
Первый шаг - начать запись аудиопотока на компьютер. У пользователя есть два основных варианта обработки:
- Распознавание дискретной речи (DSR) - полностью обрабатывает информацию на локальной машине. Это относится к автономным системам, в которых все аспекты SR полностью выполняются на компьютере пользователя. Это становится критически важным для защиты интеллектуальной собственности (IP) и предотвращения нежелательного наблюдения (2018 г.).
- Удаленный или же серверный SR - передает звуковой речевой файл на удаленный сервер для преобразования файла в текстовый строковый файл. В связи с недавним облачное хранилище схем и интеллектуального анализа данных, этот метод упрощает наблюдение, кражу информации и внедрение вредоносных программ.
Удаленное распознавание ранее использовалось смартфоны потому что им не хватало производительности, работая объем памяти, или же место хранения для обработки распознавания речи в телефоне. Эти ограничения в основном преодолены, хотя серверная SR на мобильных устройствах остается универсальной.
Распознавание речи в браузере
Распознавание дискретной речи может выполняться в веб-браузер и хорошо работает с поддерживаемыми браузерами. Remote SR не требует установки программного обеспечения на настольный компьютер или мобильное устройство, поскольку это в основном серверная система с внутренними проблемами безопасности, указанными выше.
- Удаленный: Служба диктовки записывает звуковую дорожку пользователя через веб-браузер.
- DSR: Есть решения, которые работают только на клиенте, без отправки данных на серверы.
Механизмы распознавания свободной речи
Ниже приведен список проектов, посвященных реализации распознавания речи в Linux, и основных нативных решений. Это не приложения для конечных пользователей. Это программирование библиотеки которые можно использовать для разработки приложений для конечных пользователей.
- КМУ Сфинкс - общий термин для описания группы систем распознавания речи, разработанных в Университете Карнеги-Меллона.
- Юлий высокопроизводительный, двухпроходный Распознавание слитной речи с большим словарным запасом (LVCSR) декодер для исследователей и разработчиков, связанных с речью.
- Kaldi набор инструментов для распознавания речи, предоставляемый по лицензии Apache.
- Mozilla DeepSpeech разрабатывает движок преобразования речи в текст с открытым исходным кодом на основе исследования Baidu по глубокой речи.[1]
Возможные активные проекты:
- Parlatype, аудиоплеер для ручной расшифровки речи для рабочего стола GNOME, начиная с версии 1.6, обеспечивает непрерывное распознавание речи с помощью CMU Sphinx.[2]
- Лера (Распознавание речи с большим словарным запасом) на основе Саймона и CMU Sphinx для KDE.[3]
- Речь[4] использует механизм распознавания речи Google для поддержки диктовки на разных языках.
- Управление речью: это приложение на основе Qt, которое использует КМУ Сфинкстакие инструменты, как SphinxTrain и PocketSphinx, для обеспечения утилит распознавания речи, таких как управление рабочим столом, диктовка и транскрибирование на рабочий стол Linux.
- Утконос[5] это прокладка с открытым исходным кодом, которая позволит проприетарному Dragon NaturallySpeaking работать под Вино для работы с любым приложением Linux X11.
- Свободная речь,[6] от разработчика Platypus, это бесплатное кроссплатформенное настольное приложение с открытым исходным кодом для GTK, которое использует КМУ Сфинксинструменты для обеспечения голосового диктовки, изучения языка и редактирования в стиле Dragon NaturallySpeaking.
- Ведики[7] (Voice Enabled Desktop Interaction and Control System) - речевой помощник для среды GNOME.
- NatI[8] это многоязычная система голосового управления, написанная на Python
- СфинксКлючи[9] позволяет пользователю вводить клавиши клавиатуры и щелчки мыши, говоря в микрофон.
- VoxForge - это корпус свободы слова и репозиторий акустических моделей для движков распознавания речи с открытым исходным кодом.
- Саймон[10] стремится быть чрезвычайно гибким, чтобы компенсировать диалекты или даже нарушения речи. Он использует HTK-Julius или CMU SPHINX, работает в Windows и Linux и поддерживает обучение.
- Джаспер проект[11] Jasper - это платформа с открытым исходным кодом для разработки постоянно работающих приложений с голосовым управлением. Это встроенный Raspberry Pi интерфейс для CMU Sphinx или Julius
Разработчики могут создавать программное обеспечение для распознавания речи Linux, используя существующие пакеты, полученные из проектов с открытым исходным кодом.
Неактивные проекты:
- CVoiceControl[12] является независимой от KDE и X Window версией своего предшественника KVoiceControl. Владелец прекратил разработку на альфа-стадии разработки.
- Открытая речь,[13] часть инициативы Open Mind Initiative,[14] направлена на разработку бесплатных (GPL) инструментов и приложений распознавания речи, а также на сбор речевых данных. Производство закончилось в 2000 году.
- PerlBox[15] это Perl управление на основе и вывод речи. Разработка закончилась на начальных этапах в 2004 году.
- Xvoice[16] Пользовательское приложение, обеспечивающее диктовку и командное управление любому X-приложению. Разработка завершилась в 2009 году во время раннего тестирования проекта. (для работы требуется проприетарный ViaVoice)
Собственные движки распознавания речи
- Инструментарий распознавания Janus (JRTk)[17] - это набор инструментов для распознавания речи с закрытым исходным кодом, в основном ориентированный на Linux, разработанный Interactive Systems Laboratories, разработанный в Университет Карнеги Меллон и Карлсруэ технологический институт для которых доступны коммерческие и исследовательские лицензии.
Голосовое управление и сочетания клавиш
Распознавание речи обычно относится к программному обеспечению, которое пытается различать тысячи слов на человеческом языке. Голосовое управление может относиться к программному обеспечению, используемому для отправки рабочих команд компьютеру или устройству. Голосовое управление обычно требует гораздо меньшего словарного запаса, поэтому его гораздо проще реализовать.
Простое программное обеспечение в сочетании с горячие клавиши, имеют самый ранний потенциал для практически точного голосового управления в Linux.
Запуск программного обеспечения для распознавания речи Windows с Linux
Через уровень совместимости
Можно использовать такие программы, как Дракон Естественно в Linux, используя Вино, хотя некоторые проблемы могут возникнуть в зависимости от того, какая версия используется.[18]
Через виртуализированную Windows
Также можно использовать программное обеспечение для распознавания речи Windows под Linux. Бесплатное использование виртуализация программное обеспечение, можно запускать Windows и Естественно под Linux. Сервер VMware или же VirtualBox поддержка копирования и вставки в / из виртуальной машины, что позволяет легко переносить продиктованный текст на / с виртуальной машины.
Смотрите также
Рекомендации
- ^ «Реализация TensorFlow архитектуры Baidu DeepSpeech». Mozilla. 2017-12-05. Получено 2017-12-05.
- ^ Parlatype 1.6 выпущен 24 апреля 2019 г. http://gkarsay.github.io/parlatype/2019/04/24/v1.6.html Проверено 12 мая 2019.
- ^ Репозиторий Lera KDE git - (2015) - https://cgit.kde.org/scratch/grasch/lera.git/ Проверено 25 июля 2017.
- ^ "Андре-Луис-дос-Сантуш / Speech-app". GitHub. 2018-07-12.
- ^ "Шоу ботаников - Утконос". thenerdshow.com.
- ^ «Распознавание речи и диктовка FreeSpeech в реальном времени». TheNerdShow.com.
- ^ "Ведика".
- ^ "rcorcs / NatI". GitHub. 2018-09-24.
- ^ "worden341 / sphinxkeys". GitHub. 2016-07-11.
- ^ Саймон KDE - Главный разработчик до 2015 г. Питер Граш - (дата обращения: 04.09.2017) - [1]
- ^ "Джаспер". GitHub.
- ^ Kiecza, Даниэль. «Linux». Kiecza.net.
- ^ "Open Mind Speech - свободное распознавание речи для Linux". freespeech.sourceforge.net.
- ^ "Инициатива открытого разума". Архивировано из оригинал на 2003-08-05. Получено 2019-03-16.
- ^ "Perlbox.org Linux Управление речью и распознавание голоса". perlbox.sourceforge.net.
- ^ "Xvoice". xvoice.sourceforge.net.
- ^ (IAR), Реддер, Маргит (26 января 2018 г.). «KIT - Janus Recognition Toolkit». isl.ira.uka.de.
- ^ "WineHQ - Дракон, естественно говорящий". appdb.winehq.org.