WikiDer > База данных MNIST - Википедия
В База данных MNIST (Изменено Национальный институт стандартов и технологий база данных) является большим база данных рукописных цифр, которые обычно используются для обучение персонала разные обработка изображений системы.[1][2] База данных также широко используется для обучения и тестирования в области машинное обучение.[3][4] Он был создан путем «повторного смешивания» выборок из исходных наборов данных NIST.[5] Создатели посчитали, что, поскольку набор данных обучения NIST был взят из американских Бюро переписи населения сотрудников, а набор данных тестирования был взят из Американец Средняя школа студентов, он не подходил для экспериментов с машинным обучением.[6] Кроме того, черно-белые изображения из NIST были нормализованный чтобы поместиться в ограничительную рамку 28x28 пикселей и сглаженный, который ввел уровни оттенков серого.[6]
База данных MNIST содержит 60 000 обучающих изображений и 10 000 тестовых изображений.[7] Половина обучающего набора и половина тестового набора были взяты из набора обучающих данных NIST, тогда как другая половина обучающего набора и другая половина набора тестов были взяты из набора данных тестирования NIST.[8] Первоначальные создатели базы данных ведут список некоторых из протестированных на ней методов.[6] В своей исходной статье они используют Машина опорных векторов чтобы получить коэффициент ошибок 0,8%.[9] В 2017 году был опубликован расширенный набор данных, подобный MNIST, под названием EMNIST, который содержит 240 000 обучающих изображений и 40 000 тестовых изображений рукописных цифр и символов.[10]
Набор данных
Набор изображений в базе данных MNIST представляет собой комбинацию двух баз данных NIST: Специальная база данных 1 и Специальная база данных 3. Специальная база данных 1 и Специальная база данных 3 состоят из цифр, написанных старшеклассниками и сотрудниками Бюро переписи населения США, соответственно.[6]
Спектакль
Некоторые исследователи достигли «почти человеческих характеристик» в базе данных MNIST, используя комитет нейронных сетей; в той же статье авторы добиваются вдвое большей производительности, чем люди, в других задачах распознавания.[11] Самая высокая частота ошибок в списке[6] на исходном сайте базы данных - 12 процентов, что достигается с помощью простого линейного классификатора без предварительной обработки.[9]
В 2004 году коэффициент ошибок в лучшем случае 0,42 процента был достигнут в базе данных исследователями, использовавшими новый классификатор под названием LIRA, который представляет собой нейронный классификатор с тремя слоями нейронов, основанный на принципах персептрона Розенблатта.[12]
Некоторые исследователи тестировали системы искусственного интеллекта, используя базу данных, подвергнутую случайным искажениям. Системы в этих случаях обычно представляют собой нейронные сети, и используемые искажения имеют тенденцию либо аффинные искажения или же упругие искажения.[6] Иногда эти системы могут быть очень успешными; одна такая система достигла коэффициента ошибок в базе данных 0,39 процента.[13]
В 2011 году исследователи, использующие аналогичную систему нейронных сетей, сообщили о частоте ошибок 0,27%, что лучше предыдущего лучшего результата.[14] В 2013 году было заявлено, что подход, основанный на регуляризации нейронных сетей с использованием DropConnect, позволяет достичь коэффициента ошибок 0,21 процента.[15] В 2016 году лучшая производительность одиночной сверточной нейронной сети составила 0,25 процента ошибок.[16] По состоянию на август 2018 года лучшая производительность одной сверточной нейронной сети, обученной на обучающих данных MNIST с использованием не увеличение данных составляет 0,25 процента ошибок.[16][17] Кроме того, Центр параллельных вычислений (Хмельницкий, Украина) получил ансамбль всего из 5 сверточных нейронных сетей, которые работают в MNIST с частотой ошибок 0,21%.[18][19] Некоторые изображения в наборе данных тестирования плохо читаются и могут помешать достижению коэффициента ошибок тестирования 0%.[20] В 2018 году исследователи из Департамента системной и информационной инженерии Университета Вирджинии объявили об ошибке 0,18% при одновременном сложении трех типов нейронных сетей (полносвязные, рекуррентные и сверточные нейронные сети).[21]
Классификаторы
Это таблица некоторых машинное обучение методы, используемые в наборе данных, и их частота ошибок, по типу классификатора:
Тип | Классификатор | Искажение | Предварительная обработка | Частота ошибок (%) |
---|---|---|---|---|
Линейный классификатор | Попарный линейный классификатор | Никто | Выравнивание | 7.6[9] |
Поток решений с чрезвычайно рандомизированными деревьями | Одиночная модель (глубина> 400 уровней) | Никто | Никто | 2.7[22] |
K-Ближайшие соседи | К-НН с нелинейной деформацией (П2ДХМДМ) | Никто | Сдвигающиеся края | 0.52[23] |
Усиленные пни | Продукт культей на Особенности Хаара | Никто | Особенности Хаара | 0.87[24] |
Нелинейный классификатор | 40 PCA + квадратичный классификатор | Никто | Никто | 3.3[9] |
Случайный лес | Быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)[25] | Никто | Простая статистическая важность пикселей | 2.8[26] |
Машина опорных векторов (SVM) | Виртуальный SVM, deg-9 poly, 2-пиксельное дрожание | Никто | Выравнивание | 0.56[27] |
Глубокий нейронная сеть (DNN) | 2-х слойный 784-800-10 | Никто | Никто | 1.6[28] |
Глубокий нейронная сеть | 2-х слойный 784-800-10 | Упругие искажения | Никто | 0.7[28] |
Глубокий нейронная сеть | 6-слойный 784-2500-2000-1500-1000-500-10 | Упругие искажения | Никто | 0.35[29] |
Сверточная нейронная сеть (CNN) | 6-слойный 784-40-80-500-1000-2000-10 | Никто | Расширение обучающих данных | 0.31[30] |
Сверточная нейронная сеть | 6-слойный 784-50-100-500-1000-10-10 | Никто | Расширение обучающих данных | 0.27[31] |
Сверточная нейронная сеть (CNN) | 13-слойный 64-128 (5x) -256 (3x) -512-2048-256-256-10 | Никто | Никто | 0.25[16] |
Сверточная нейронная сеть | Комитет 35 CNN, 1-20-P-40-P-150-10 | Упругие искажения | Нормализация ширины | 0.23[11] |
Сверточная нейронная сеть | Комитет 5 CNN, 6 слоев 784-50-100-500-1000-10-10 | Никто | Расширение обучающих данных | 0.21[18][19] |
Случайное многомодельное глубокое обучение (RMDL) | 10 NN-10 RNN - 10 CNN | Никто | Никто | 0.18[21] |
Сверточная нейронная сеть | Комитет 20 CNNS с сетями сжатия и возбуждения[32] | Никто | Увеличение данных | 0.17[33] |
Смотрите также
- Список наборов данных для исследования машинного обучения
- Калифорнийский технологический институт 101
- LabelMe
- OCR
Рекомендации
- ^ «Поддержка векторных машин распознавания образов скорости - Vision Systems Design». Дизайн систем технического зрения. Получено 17 августа 2013.
- ^ Гангапутра, Сачин. «База данных рукописных цифр». Получено 17 августа 2013.
- ^ Цяо, Ю (2007). "БАЗА ДАННЫХ рукописных цифр MNIST". Получено 18 августа 2013.
- ^ Платт, Джон С. (1999). «Использование аналитического QP и разреженности для ускорения обучения опорных векторных машин» (PDF). Достижения в системах обработки нейронной информации: 557–563. Архивировано из оригинал (PDF) 4 марта 2016 г.. Получено 18 августа 2013.
- ^ Гротер, Патрик Дж. "Специальная база данных NIST 19 - База данных форм и символов, отпечатанных вручную" (PDF). Национальный институт стандартов и технологий.
- ^ а б c d е ж ЛеКун, Янн; Кортез, Коринна; Берджес, Кристофер С.Дж. "База данных рукописных цифр MNIST". Веб-сайт Яна ЛеКуна yann.lecun.com. Получено 30 апреля 2020.
- ^ Куссул, Эрнст; Байдык, Татьяна (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST». Вычисления изображений и зрения. 22 (12): 971–981. Дои:10.1016 / j.imavis.2004.03.008.
- ^ Чжан, Бинь; Шрихари, Саргур Н. (2004). "Быстрый k-Классификация ближайшего соседа с использованием кластерных деревьев » (PDF). IEEE Transactions по анализу шаблонов и машинному анализу. 26 (4): 525–528. Дои:10.1109 / TPAMI.2004.1265868. PMID 15382657. S2CID 6883417. Получено 20 апреля 2020.
- ^ а б c d ЛеКун, Янн; Леон Ботту; Йошуа Бенджио; Патрик Хаффнер (1998). «Градиентное обучение применительно к распознаванию документов» (PDF). Труды IEEE. 86 (11): 2278–2324. Дои:10.1109/5.726791. Получено 18 августа 2013.
- ^ Коэн, Грегори; Афшар, Саид; Тэпсон, Джонатан; ван Шайк, Андре (17.02.2017). «EMNIST: расширение MNIST для рукописных букв». arXiv:1702.05373 [cs.CV].
- ^ а б Чиресан, Дан; Ули Мейер; Юрген Шмидхубер (2012). «Многоколоночные глубокие нейронные сети для классификации изображений» (PDF). Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. С. 3642–3649. arXiv:1202.2745. CiteSeerX 10.1.1.300.3283. Дои:10.1109 / CVPR.2012.6248110. ISBN 978-1-4673-1228-8. S2CID 2161592.
- ^ Куссул, Эрнст; Татьяна Байдык (2004). «Улучшенный метод распознавания рукописных цифр протестирован в базе данных MNIST» (PDF). Вычисления изображений и зрения. 22 (12): 971–981. Дои:10.1016 / j.imavis.2004.03.008. Архивировано из оригинал (PDF) 21 сентября 2013 г.. Получено 20 сентября 2013.
- ^ Ранзато, Марк'Аурелио; Кристофер Поултни; Сумит Чопра; Янн ЛеКун (2006). «Эффективное изучение разреженных представлений с помощью модели, основанной на энергии» (PDF). Достижения в системах обработки нейронной информации. 19: 1137–1144. Получено 20 сентября 2013.
- ^ Чиресан, Дэн Клаудиу; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (2011). «Комитеты сверточных нейронных сетей для классификации рукописных символов» (PDF). 2011 Международная конференция по анализу и распознаванию документов (ICDAR). С. 1135–1139. CiteSeerX 10.1.1.465.2138. Дои:10.1109 / ICDAR.2011.229. ISBN 978-1-4577-1350-7. S2CID 10122297. Архивировано из оригинал (PDF) 22 февраля 2016 г.. Получено 20 сентября 2013.
- ^ Ван, Ли; Мэтью Цайлер; Сиксин Чжан; Янн ЛеКун; Роб Фергус (2013). Регуляризация нейронной сети с помощью DropConnect. Международная конференция по машинному обучению (ICML).
- ^ а б c SimpleNet (2016). «Давайте оставим это простым, используя простые архитектуры, чтобы превзойти более глубокие и сложные архитектуры». arXiv:1608.06037. Получено 3 декабря 2020.
- ^ SimpNet. «На пути к принципиальному проектированию глубоких сверточных сетей: введение в SimpNet». Github. arXiv:1802.06205. Получено 3 декабря 2020.
- ^ а б Романуке, Вадим. «Центр параллельных вычислений (Хмельницкий, Украина) представляет собой ансамбль из 5 сверточных нейронных сетей, которые работают на MNIST с частотой ошибок 0,21%». Получено 24 ноября 2016.
- ^ а б Романуке, Вадим (2016). «Расширение обучающих данных и усиление сверточных нейронных сетей для уменьшения количества ошибок набора данных MNIST». Вестник НТУУ «Киевский политехнический институт». 6 (6): 29–34. Дои:10.20535/1810-0546.2016.6.84115.
- ^ Классификатор MNIST, GitHub. «Классифицируйте цифры MNIST с помощью сверточных нейронных сетей». Получено 3 августа 2018.
- ^ а б Ковсари, Камран; Хейдарисафа, Моджтаба; Браун, Дональд Э .; Мейманди, Киана Джафари; Барнс, Лаура Э. (2018-05-03). «RMDL: случайное многомодельное глубокое обучение для классификации». Материалы Международной конференции по информационным системам и интеллектуальному анализу данных 2018 г.. arXiv:1805.01890. Дои:10.1145/3206098.3206111. S2CID 19208611.
- ^ Игнатов Д.Ю .; Игнатов, А.Д. (2017). «Поток принятия решений: выращивание глубоких деревьев решений». IEEE Ictai: 905–912. arXiv:1704.07657. Bibcode:2017arXiv170407657I. Дои:10.1109 / ICTAI.2017.00140. ISBN 978-1-5386-3876-7.
- ^ Кейзерс, Дэниел; Томас Дезелаерс; Кристиан Голлан; Герман Ней (август 2007 г.). «Деформационные модели для распознавания изображений». IEEE Transactions по анализу шаблонов и машинному анализу. 29 (8): 1422–1435. CiteSeerX 10.1.1.106.3963. Дои:10.1109 / TPAMI.2007.1153. PMID 17568145. S2CID 2528485.
- ^ Кегл, Балаж; Роберт Буса-Фекете (2009). «Повышение качества продуктов базовых классификаторов» (PDF). Материалы 26-й ежегодной международной конференции по машинному обучению: 497–504. Получено 27 августа 2013.
- ^ «RandomForestSRC: быстрые унифицированные случайные леса для выживания, регрессии и классификации (RF-SRC)». 21 января 2020.
- ^ "Мехрад Махмудиан / MNIST с RandomForest".
- ^ ДеКост и Шолкопф, MLJ 2002
- ^ а б Патрис Ю. Симард; Дэйв Стейнкраус; Джон С. Платт (2003). «Лучшие практики сверточных нейронных сетей, применяемые для визуального анализа документов». Материалы Седьмой Международной конференции по анализу и распознаванию документов. 1. Институт инженеров по электротехнике и электронике. п. 958. Дои:10.1109 / ICDAR.2003.1227801. ISBN 978-0-7695-1960-9. S2CID 4659176.
- ^ Чиресан, Клаудиу Дан; Ули Мейер; Лука Мария Гамбарделла; Юрген Шмидхубер (декабрь 2010 г.). «Глубокие большие простые нейронные сети Excel по распознаванию рукописных цифр». Нейронные вычисления. 22 (12): 3207–20. arXiv:1003.0358. Дои:10.1162 / NECO_a_00052. PMID 20858131. S2CID 1918673.
- ^ Романуке, Вадим. «Лучшая производительность одиночной сверточной нейронной сети за 18 эпох на расширенных обучающих данных в Центре параллельных вычислений, Хмельницкий, Украина». Получено 16 ноября 2016.
- ^ Романуке, Вадим. «Центр параллельных вычислений (Хмельницкий, Украина) дает единую сверточную нейронную сеть, работающую на MNIST с коэффициентом ошибок 0,27%». Получено 24 ноября 2016.
- ^ Ху, Цзе; Шен, Ли; Албани, Самуэль; Солнце, банда; Ву, Эньхуа (2019). «Сети сжатия и возбуждения». IEEE Transactions по анализу шаблонов и машинному анализу. 42 (8): 2011–2023. arXiv:1709.01507. Дои:10.1109 / TPAMI.2019.2913372. PMID 31034408. S2CID 140309863.
- ^ "GitHub - Matuzas77 / MNIST-0.17: классификатор MNIST со средней ошибкой 0,17%". 25 февраля 2020.
дальнейшее чтение
- Чиресан, Дан; Мейер, Ули; Шмидхубер, Юрген (июнь 2012 г.). «Многоколоночные глубокие нейронные сети для классификации изображений» (PDF). Конференция IEEE 2012 года по компьютерному зрению и распознаванию образов. Нью-Йорк, штат Нью-Йорк: Институт инженеров по электротехнике и электронике. С. 3642–3649. arXiv:1202.2745. CiteSeerX 10.1.1.300.3283. Дои:10.1109 / CVPR.2012.6248110. ISBN 9781467312264. OCLC 812295155. S2CID 2161592. Получено 2013-12-09.
внешняя ссылка
- Официальный веб-сайт
- Нейронная сеть для распознавания рукописных цифр в JavaScript - реализация нейронной сети на JavaScript для классификации рукописных цифр на основе базы данных MNIST
- Визуализация базы данных MNIST - группы изображений рукописных цифр MNIST на GitHub