WikiDer > Гранулярные вычисления
Гранулярные вычисления (GrC) - это новая вычисление парадигма обработка информации что касается обработки сложных информационных объектов, называемых "информация гранулы", которые возникают в процессе абстракции данных и получение знаний из информации или данных. Вообще говоря, информационные гранулы - это совокупности сущностей, которые обычно возникают на числовом уровне и организованы вместе из-за их сходство, функциональная или физическая смежность, неразличимость, когерентность и т.п.
В настоящее время гранулярные вычисления - это больше теоретическая перспектива чем последовательный набор методов или принципов. С теоретической точки зрения он поощряет подход к данным, который распознает и использует знания, присутствующие в данных, с различными уровнями разрешения или масштабами. В этом смысле он включает в себя все методы, которые обеспечивают гибкость и адаптируемость в разрешении, при котором знания или информация извлекаются и представляются.
Виды грануляции
Как уже упоминалось выше, гранулярные вычисления это не алгоритм или процесс; не существует конкретного метода, который называется «гранулярные вычисления». Это скорее подход к рассмотрению данных, который распознает, насколько разные и интересные закономерности в данных могут проявляться на разных уровнях детализации, так же как разные функции становятся заметными в спутниковые снимки большего или меньшего разрешения. Например, на спутниковом снимке с низким разрешением можно заметить интересные узоры облаков, представляющие циклоны или другие крупномасштабные погодные явления, в то время как на изображении с более высоким разрешением можно упустить эти крупномасштабные атмосферные явления, но вместо этого замечают явления меньшего масштаба, такие как интересный узор, который представляет собой улицы Манхэттен. То же самое обычно верно для всех данных: при разном разрешении или степени детализации проявляются разные функции и взаимосвязи. Цель гранулярных вычислений - попытаться использовать этот факт при разработке более эффективных систем машинного обучения и рассуждений.
Есть несколько типов детализации, которые часто встречаются в сбор данных и машинное обучение, и мы рассматриваем их ниже:
Грануляция значений (дискретизация / квантование)
Одним из видов гранулирования является квантование переменных. Очень часто в приложениях для интеллектуального анализа данных или машинного обучения разрешение переменных должно быть уменьшился для выявления значимых закономерностей. Примером этого может быть такая переменная, как «наружная температура» (), который в данном приложении может быть записан с точностью до нескольких десятичных знаков. точность (в зависимости от чувствительного аппарата). Однако для целей выявления взаимосвязей между «наружной температурой» и, скажем, «количеством обращений в оздоровительный клуб» (), как правило, предпочтительно квантовать «внешнюю температуру» на меньшее количество интервалов.
Мотивации
Такой способ гранулирования переменных обусловлен несколькими взаимосвязанными причинами:
- На основе предыдущих базовые знания, нет никаких ожиданий, что незначительные колебания температуры (например, разница между 80–80,7 ° F (26,7–27,1 ° C)) могут повлиять на поведение, определяющее количество обращений в оздоровительный клуб. По этой причине любая "закономерность", которую наши алгоритмы обучения могут обнаружить на этом уровне разрешения, должна быть ложный, как артефакт переобучения. Разбивая температурную переменную на интервалы, разницу между которыми мы делать предвидеть (на основе предшествующих знаний в предметной области) может повлиять на количество приложений оздоровительного клуба, мы исключаем возможность обнаружения этих ложных шаблонов. Таким образом, в данном случае уменьшение разрешения - это метод управления переоснащение.
- Уменьшая количество интервалов в температурной переменной (т. Е. Увеличивая ее размер зерна), мы увеличиваем количество выборочных данных, проиндексированных каждым обозначением интервала. Таким образом, огрубляя переменную, мы увеличиваем размер выборки и добиваемся лучшей статистической оценки. В этом смысле увеличение степени детализации дает противоядие от так называемого проклятие размерности, который связан с экспоненциальным уменьшением статистической мощности с увеличением количества измерений или переменной мощности.
- Независимо от предшествующих знаний предметной области, часто бывает так, что значимые закономерности (т. Е. Которые могут быть обнаружены с помощью данной методологии обучения, репрезентативного языка и т. Д.) Могут существовать на одном уровне разрешения, а не на другом.
Например, простой обучающийся или система распознавания образов может стремиться извлечь закономерности, удовлетворяющие условная возможность порог, такой как . В частном случае, когда , эта система распознавания по существу обнаруживает логическое следствие формы или, говоря словами, "если , тогда ". Способность системы распознавать такие последствия (или, в общем, условные вероятности превышения порога) частично зависит от разрешения, с которым система анализирует переменные.
В качестве примера последнего пункта рассмотрим пространство функций, показанное справа. Каждую переменную можно рассматривать с двумя разными разрешениями. Переменная можно рассматривать с высоким (четвертичным) разрешением, в котором он принимает четыре значения или при более низком (двоичном) разрешении, где он принимает два значения . Аналогично переменная может рассматриваться с высоким (четвертичным) разрешением или с более низким (двоичным) разрешением, где он принимает значения или , соответственно. В высоком разрешении есть нет обнаруживаемые последствия формы , поскольку каждый связан с более чем одним , а значит, для всех , . Однако при низком (бинарном) разрешении переменных становятся заметными два двусторонних следствия: и , поскольку каждый происходит если только и происходит если только . Таким образом, система распознавания образов, сканирующая последствия такого рода, обнаружит их при разрешении двоичной переменной, но не сможет найти их при более высоком разрешении четвертичной переменной.
Проблемы и методы
Невозможно полностью проверить все возможные разрешения дискретизации по всем переменным, чтобы увидеть, какая комбинация разрешений дает интересные или важные результаты. Вместо этого пространство функций должно быть предварительно обработано (часто энтропия некоторого рода анализ), чтобы можно было дать некоторые указания относительно того, как должен происходить процесс дискретизации. Более того, обычно нельзя достичь хороших результатов, наивно анализируя и дискретизируя каждую переменную независимо, поскольку это может стереть те самые взаимодействия, которые мы надеялись обнаружить.
Примеры работ, посвященных проблеме дискретизации переменных в целом и дискретизации нескольких переменных в частности, следующие: Чиу, Вонг и Чунг (1991), Залив (2001), Лю и др. (2002), Ван и Лю (1998), Зигхед, Рабаседа и Ракотомалала (1998), Катлетт (1991), Догерти, Кохави и Сахами (1995), Монти и Купер (1999), Файяд и Ирани (1993), Чиу, Чунг и Вонг (1990), Нгуен и Нгуен (1998), Гжимала-Буссе и Стефановски (2001), Тинг (1994), Людл и Видмер (2000), Пфарингер (1995), An & Cercone (1999), Чиу и Чунг (1989), Хмелевский и Гжимала-Буссе (1996), Ли и Шин (1994), Лю и Веллман (2002), Лю и Веллман (2004).
Переменная грануляция (кластеризация / агрегирование / преобразование)
Гранулирование переменных - это термин, который может описывать различные методы, большинство из которых нацелены на снижение требований к размерности, избыточности и хранилищу. Здесь мы кратко опишем некоторые идеи и дадим ссылки на литературу.
Преобразование переменной
Ряд классических методов, таких как Анализ главных компонентов, многомерное масштабирование, факторный анализ, и структурное моделирование уравнениеи их родственники относятся к роду «переменной трансформации». Также в эту категорию входят более современные направления обучения, такие как уменьшение размерности, преследование проекции, и независимый компонентный анализ. Общая цель этих методов в целом - найти представление данных в терминах новых переменных, которые являются линейным или нелинейным преобразованием исходных переменных и в которых возникают важные статистические взаимосвязи. Результирующие наборы переменных почти всегда меньше, чем исходный набор переменных, и, следовательно, можно сказать, что эти методы налагают грануляцию на пространство признаков. Все эти методы уменьшения размерности рассматриваются в стандартных текстах, таких как Дуда, Харт и Аист (2001), Виттен и Франк (2005), и Хасти, Тибширани и Фридман (2001).
Агрегация переменных
Другой класс методов переменного гранулирования больше основан на кластеризация данных методологии, чем из теории линейных систем, сообщающей вышеупомянутые методы. Довольно рано было отмечено, что можно рассматривать связанные с «кластеризацией» переменные точно так же, как рассматривают данные, связанные с кластеризацией. При кластеризации данных определяется группа похожих объектов (с помощью символа "мера сходства"подходит для домена - Мартино, Джулиани и Рицци (2018)), а затем в некотором смысле заменяет те сущности, у которых есть какой-то прототип. Прототипом может быть простое среднее значение данных в идентифицированном кластере или какой-либо другой репрезентативный показатель. Но ключевая идея состоит в том, что в последующих операциях мы сможем использовать единственный прототип для кластера данных (вместе, возможно, со статистической моделью, описывающей, как образцы получаются из прототипа) для стоять в для гораздо большего набора экземпляров. Эти прототипы обычно таковы, что собирают большую часть интересующей информации о сущностях.
Точно так же разумно спросить, можно ли объединить большой набор переменных в меньший набор переменных. прототип переменные, которые отражают наиболее важные отношения между переменными. Хотя методы кластеризации переменных на основе линейная корреляция Были предложены (Дуда, Харт и Сторк 2001;Ренчер 2002), более мощные методы кластеризации переменных основаны на взаимная информация между переменными. Ватанабэ показал (Ватанабэ 1960;Ватанабэ 1969), что для любого набора переменных можно построить политомический (т. е. n-арное) дерево, представляющее серию переменных агломераций, в которой конечная «общая» корреляция между полным набором переменных является суммой «частичных» корреляций, демонстрируемых каждым агломерирующим подмножеством (см. рисунок). Ватанабэ предполагает, что наблюдатель может стремиться таким образом разделить систему таким образом, чтобы свести к минимуму взаимозависимость между частями «... как если бы они искали естественное разделение или скрытую трещину».
Один из практических подходов к построению такого дерева заключается в последовательном выборе для агломерации двух переменных (либо атомарных переменных, либо ранее агломерированных переменных), которые имеют наивысшую попарную взаимную информацию (Красков и др. 2003 г.). Продуктом каждой агломерации является новая (сконструированная) переменная, отражающая локальные совместное распределение двух агломерирующих переменных, и, таким образом, обладает энтропией, равной их совместная энтропия. (С процедурной точки зрения этот этап агломерации включает замену двух столбцов в таблице значений атрибутов, представляющих две агломерирующие переменные, на один столбец, который имеет уникальное значение для каждой уникальной комбинации значений в замененных столбцах (Красков и др. 2003 г.). При такой операции никакая информация не теряется; однако, если кто-то исследует данные на предмет взаимосвязей между переменными, обычно нет желательно объединить таким образом избыточные переменные, поскольку в таком контексте, вероятно, будет именно избыточность или зависимость между интересующими переменными; и как только избыточные переменные объединены, их взаимосвязь друг с другом больше не может быть изучена.
Системное гранулирование (агрегирование)
В системы баз данных, агрегаты (см., например, Агрегирование OLAP и Бизнес-аналитика систем) приводят к преобразованию исходных таблиц данных (часто называемых информационными системами) в таблицы с разной семантикой строк и столбцов, где строки соответствуют группам (гранулам) исходных кортежей, а столбцы выражают агрегированную информацию об исходных значениях в каждом из группы. Такие агрегаты обычно основаны на SQL и его расширениях. Результирующие гранулы обычно соответствуют группам исходных кортежей с одинаковыми значениями (или диапазонами) в некоторых предварительно выбранных исходных столбцах.
Существуют также другие подходы, в которых группы определяются на основе, например, физического соседства строк. Например, Infobright реализовал механизм базы данных, в котором данные были разделены на грубые ряды, каждая из которых состоит из 64К физически последовательных (или почти последовательных) строк. Грубые строки автоматически помечались компактной информацией об их значениях в столбцах данных, часто с участием нескольких столбцов и многотабличных отношений. Это привело к более высокому уровню детализации информации, где объекты соответствуют грубым строкам, а атрибуты - различным аспектам необработанной информации. Операции с базой данных могут эффективно поддерживаться в такой новой структуре, при этом доступ к исходным частям данных все еще доступен (Slezak et al. 2013) .
Грануляция концепции (компонентный анализ)
Истоки гранулярные вычисления идеологию можно найти в грубые наборы и нечеткие множества литературы. Один из ключевых выводов исследования приблизительного набора - хотя он никоим образом не уникален - заключается в том, что в целом выбор разных наборов характеристик или переменных дает разные концепция грануляции. Здесь, как и в элементарной теории грубых множеств, под «концепцией» мы подразумеваем набор сущностей, которые неотличимый или неразличимый для наблюдателя (т. е. простое понятие) или набор сущностей, который состоит из таких простых понятий (т. е. сложное понятие). Другими словами, проецируя набор данных (система значений-атрибутов) на разные наборы переменных, мы распознаем альтернативные наборы «концепций» класса эквивалентности в данных, и эти разные наборы концептов в целом будут способствовать извлечению различных отношений и закономерностей.
Гранулирование класса эквивалентности
Проиллюстрируем на примере. Рассмотрим систему значений атрибутов ниже:
Образец информационной системы Объект 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
Когда полный набор атрибутов рассматривается, мы видим, что у нас есть следующие семь классов эквивалентности или примитивных (простых) концепций:
Таким образом, два объекта в первом классе эквивалентности, , нельзя отличить друг от друга на основе доступных атрибутов, и три объекта во втором классе эквивалентности, , невозможно отличить друг от друга на основе доступных атрибутов. Остальные пять объектов можно отличить от всех остальных. Теперь представим проекцию системы значений атрибутов на атрибут в одиночку, что может представлять, например, вид наблюдателя, который способен обнаруживать только этот единственный атрибут. Тогда мы получаем следующую, гораздо более грубую структуру классов эквивалентности.
В некотором смысле это та же структура, что и раньше, но с более низкой степенью разрешения (больший размер зерна). Как и в случае с грануляция значений (дискретизация / квантование), возможно, что отношения (зависимости) могут возникать на одном уровне детализации, которые отсутствуют на другом. В качестве примера можно рассмотреть влияние грануляции понятий на меру, известную как зависимость атрибута (более простой родственник взаимная информация).
Чтобы установить это понятие зависимости (см. Также грубые наборы), позволять представляют собой конкретную грануляцию концепции, где каждый является классом эквивалентности из структуры понятия, индуцированной набором атрибутов . Например, если атрибут установлен состоит из атрибута только, как указано выше, тогда структура понятия будет состоять из , , и . В зависимость набора атрибутов на другом наборе атрибутов , , дан кем-то
То есть для каждого класса эквивалентности в , складываем размер его «нижнего приближения» (см. грубые наборы) атрибутами в , т.е. . Проще говоря, это приближение - это количество объектов, для которых установлен атрибут могут быть положительно определены как принадлежащие к целевому набору . Добавлен по всем классам эквивалентности в числитель выше представляет общее количество объектов, которые - на основе набора атрибутов - могут быть положительно отнесены к категории согласно классификации, вызванной атрибутами . Соотношение зависимости, таким образом, выражает долю (в пределах всей вселенной) таких классифицируемых объектов, в некотором смысле фиксируя "синхронизацию" двух концептуальных структур. и . Зависимость "можно интерпретировать как долю таких объектов в информационной системе, для которой достаточно знать значения атрибутов в для определения значений атрибутов в "(Ziarko & Shan 1995).
Разобравшись с определениями, мы можем сделать простое наблюдение, что выбор степени детализации концепции (т. Е. Выбор атрибутов) будет влиять на обнаруженные зависимости между атрибутами. Снова рассмотрим приведенную выше таблицу значений атрибутов:
Образец информационной системы Объект 1 2 0 1 1 1 2 0 1 1 2 0 0 1 0 0 0 1 2 1 2 1 0 2 1 0 0 1 2 2 2 0 0 1 0 0 1 2 2 1 2 1 0 2 2 2 0 0 1 0
Учитывайте зависимость набора атрибутов по набору атрибутов . То есть мы хотим знать, какую долю объектов можно правильно разделить на классы основанный на знании . Классы эквивалентности и из показаны ниже.
Объекты, которые могут быть окончательно классифицируются в соответствии со структурой концепции на основе те в наборе , а поскольку их шесть, зависимость на , . Это можно рассматривать как интересную зависимость сама по себе, но, возможно, в конкретном приложении интеллектуального анализа данных желательны только более сильные зависимости.
Затем мы могли бы рассмотреть зависимость меньшего набора атрибутов по набору атрибутов . Переход от к вызывает огрубление структуры классов , как мы вскоре увидим. Мы хотим еще раз узнать, какая часть объектов может быть правильно отнесена к (теперь большим) классам основанный на знании . Классы эквивалентности нового и из показаны ниже.
Ясно, имеет более грубую детализацию, чем раньше. Объекты, которые теперь могут быть окончательно классифицируются в соответствии со структурой концепции на основе составляют полную вселенную , и, следовательно, зависимость на , . То есть знание членства в соответствии с установленной категорией достаточно для определения принадлежности к категории в с полной уверенностью; В этом случае можно сказать, что . Таким образом, путем огрубления структуры концепта мы смогли найти более сильную (детерминированную) зависимость. Однако отметим также, что классы, индуцированные в из-за уменьшения разрешения, необходимого для получения этой детерминированной зависимости, теперь сами большие и немногочисленные; в результате обнаруженная нами зависимость, хотя и сильная, может быть для нас менее ценной, чем более слабая зависимость, обнаруженная ранее при более высоком разрешении .
В общем, невозможно проверить все наборы атрибутов, чтобы увидеть, какие индуцированные структуры понятий приводят к наиболее сильным зависимостям, и поэтому этот поиск должен проводиться с некоторой долей интеллекта. Работы, в которых обсуждается этот и другие вопросы, касающиеся разумного использования грануляции, принадлежат Y.Y. Яо и Лотфи Заде перечисленные в #Рекомендации ниже.
Гранулирование компонентов
Другой взгляд на грануляцию понятий может быть получен при работе над параметрическими моделями категорий. В модель смеси обучение, например, набор данных объясняется как смесь различных Гауссовский (или другие) дистрибутивы. Таким образом, большой объем данных «заменяется» небольшим количеством распределений. Выбор количества этих распределений и их размера снова можно рассматривать как проблему концептуальное гранулирование. В целом, лучшее соответствие данным достигается за счет большего количества распределений или параметров, но для извлечения значимых закономерностей необходимо ограничить количество распределений, таким образом намеренно огрубение концепция разрешения. Поиск «правильного» решения концепции - сложная проблема, для решения которой было предложено множество методов (например, AIC, BIC, Лейи т. д.), и они часто рассматриваются под рубрикой "регуляризация модели".
Различные интерпретации гранулярных вычислений
Гранулярные вычисления можно представить себе как основу теорий, методологий, методов и инструментов, которые используют гранулы информации в процессе решения проблем. В этом смысле гранулярные вычисления используются как общий термин для охвата тем, которые изучались в различных областях изолированно. Изучая все эти существующие исследования в свете единой структуры гранулярных вычислений и извлекая их общие черты, возможно, удастся разработать общую теорию решения проблем.
В более философском смысле, гранулярные вычисления могут описывать способ мышления, основанный на способности человека воспринимать реальный мир на различных уровнях детализации (т. Е. Абстракции), чтобы абстрагироваться и рассматривать только те вещи, которые служат конкретным интересам и переключаться между различными уровнями детализации. Сосредоточившись на разных уровнях детализации, можно получить разные уровни знаний, а также лучше понять внутреннюю структуру знаний. Таким образом, гранулярные вычисления необходимы для решения человеческих проблем и, следовательно, имеют очень значительное влияние на проектирование и внедрение интеллектуальных систем.
Смотрите также
Рекомендации
- Ан, Айджун; Cercone, Ник (1999), «Дискретизация непрерывных атрибутов для изучения правил классификации», в Нин Чжун; Личжу Чжоу (ред.), Методологии обнаружения знаний и интеллектуального анализа данных: материалы третьей Тихоокеанской азиатской конференции, PAKDD-99, Конспект лекций по информатике, 1574, Пекин, Китай, стр. 509–514, Дои:10.1007/3-540-48912-6_69, ISBN 978-3-540-65866-5.
- Барджела, А., Педрич, В. (2003) Гранулярные вычисления. Введение, Kluwer Academic Publishers
- Бэй, Стивен Д. (2001), "Многомерная дискретизация для множественного интеллектуального анализа данных", Знания и информационные системы, 3 (4): 491–512, CiteSeerX 10.1.1.217.921, Дои:10.1007 / PL00011680.
- Катлетт, Дж. (1991), «Об изменении непрерывных атрибутов на упорядоченные дискретные атрибуты», в Я. Кодратов (ред.), Машинное обучение - EWSL-91: Европейская рабочая сессия по обучению, Порту, Португалия, стр. 164–178.
- Чиу, Дэвид К. Ю .; Чунг, Бенни (1989), «Иерархическая дискретизация максимальной энтропии», в Ryszard Janicki; Вальдемар В. Кочкодай (ред.), Вычислительная техника и информация: материалы Международной конференции по вычислениям и информации (ICCI '89), Торонто, Онтарио, Канада: Северная Голландия, стр. 237–242..
- Чиу, Дэвид К. Ю .; Чунг, Бенни; Вонг, Эндрю К. С. (1990), "Синтез информации на основе иерархической максимальной дискретизации энтропии", Журнал экспериментального и теоретического искусственного интеллекта, 2 (2): 117–129, Дои:10.1080/09528139008953718.
- Чиу, Дэвид К. Ю .; Вонг, Эндрю К. С .; Чунг, Бенни (1991), «Обнаружение информации посредством иерархической максимальной дискретизации энтропии и синтеза», у Грегори Пятецкого-Шапиро; Уильям Дж. Фроули (ред.), Открытие знаний в базах данных, Кембридж, Массачусетс: MIT Press, стр. 126–140..
- Chmielewski, Michal R .; Гжимала-Буссе, Ежи В. (1996), «Глобальная дискретизация непрерывных атрибутов как предварительная обработка для машинного обучения» (PDF), Международный журнал приблизительных рассуждений, 15 (4): 319–331, Дои:10.1016 / s0888-613x (96) 00074-6.
- Догерти, Джеймс; Кохави, Рон; Сахами, Мехран (1995), «Контролируемая и неконтролируемая дискретизация непрерывных функций»в Armand Prieditis; Стюарт Рассел (ред.), Машинное обучение: Материалы Двенадцатой Международной конференции (ICML 1995), Тахо-Сити, Калифорния: Морган Кауфманн, стр. 194–202..
- Дуда, Ричард О .; Харт, Питер Э .; Аист, Дэвид Г. (2001), Классификация паттернов (2-е изд.), Нью-Йорк: Джон Вили и сыновья, ISBN 978-0-471-05669-0
- Fayyad, Usama M .; Ирани, Кеки Б. (1993), "Многоинтервальная дискретизация непрерывнозначных атрибутов для обучения классификации", Материалы тринадцатой международной совместной конференции по искусственному интеллекту (IJCAI-93), Шамбери, Франция, стр. 1022–1027.
- Grzymala-Busse, Jerzy W .; Стефановски, Ежи (2001), "Три метода дискретизации для индукции правил", Международный журнал интеллектуальных систем, 16 (1): 29–38, CiteSeerX 10.1.1.330.2975, Дои:10.1002 / 1098-111X (200101) 16: 1 <29 :: AID-INT4> 3.0.CO; 2-0.
- Хасти, Тревор; Тибширани, Роберт; Фридман, Джером (2001), Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование, Нью-Йорк: Springer, ISBN 978-0-387-84857-0
- Красков Александр; Штегбауэр, Харальд; Andrzejak, Ralph G .; Грассбергер, Питер (2003), Иерархическая кластеризация на основе взаимной информации, arXiv:q-bio / 0311039, Bibcode:2003q.bio .... 11039K.
- Ли, Чанхван; Шин, Донг-Гук (1994), "Контекстно-зависимая дискретизация числовых атрибутов для обучения классификации", в А. Г. Кон (ред.), Материалы 11-й Европейской конференции по искусственному интеллекту (ECAI 94), NL, стр. 428–432.
- Лю, Чао-Линь; Веллман, Майкл (2002), "Оценка байесовских сетей с помощью гибких методов абстракции пространства состояний", Международный журнал приблизительных рассуждений, 30 (1): 1–39, CiteSeerX 10.1.1.127.7040, Дои:10.1016 / S0888-613X (01) 00067-6.
- Лю, Чао-Линь; Веллман, Майкл (2004), "Граничные вероятностные отношения в байесовских сетях с использованием качественных влияний: методы и приложения", Международный журнал приблизительных рассуждений, 36 (1): 31–73, Дои:10.1016 / j.ijar.2003.06.002.
- Лю, Хуань; Хуссейн, Фархад; Тан, Чу Лим; Дасии, Маноранджан (2002), «Дискретизация: разрешающий метод», Интеллектуальный анализ данных и обнаружение знаний, 6 (4): 393–423, Дои:10.1023 / А: 1016304305535.
- Ладл, Маркус-Кристофер; Видмер, Герхард (2000), «Относительная неконтролируемая дискретизация для извлечения правил ассоциации», в Джамеле А. Зигхеде; Ян Коморовский; Ян Зытков (ред.), Материалы 4-й Европейской конференции по принципам интеллектуального анализа данных и обнаружения знаний (PKDD 2000), Конспект лекций по информатике, 1910, Лион, Франция, стр. 148–158, Дои:10.1007/3-540-45372-5_15, ISBN 978-3-540-41066-9.
- Монти, Стефано; Купер, Грегори Ф. (1999), «Модель со скрытыми переменными для многомерной дискретизации», Неопределенность 99: 7-й международный семинар по искусственному интеллекту и статистике, Форт-Лодердейл, Флорида.
- Мартино, Алессио; Джулиани, Алессандро; Рицци, Антонелло (2018), «Гранулярные вычислительные методы для задач распознавания образов биоинформатики в неметрических пространствах», в Pedrycz W .; Чен С.М. (ред.), Вычислительный интеллект для распознавания образов, Исследования в области вычислительного интеллекта, 777, Springer International Publishing, стр. 53–81, Дои:10.1007/978-3-319-89629-8_3, ISBN 978-3-319-89628-1.
- Нгуен, Хунг Сон; Нгуен, Синь Хоа (1998), «Методы дискретизации в интеллектуальном анализе данных», в Лехе Польковски; Анджей Сковрон (ред.), Грубые наборы в открытии знаний 1: методология и приложения, Гейдельберг: Physica-Verlag, стр. 451–482..
- Пфарингер, Бернхард (1995), «Дискретизация непрерывных атрибутов на основе сжатия»в Armand Prieditis; Стюарт Рассел (ред.), Машинное обучение: Материалы Двенадцатой Международной конференции (ICML 1995), Тахо-Сити, Калифорния: Морган Кауфманн, стр. 456–463..
- Ренчер, Элвин К. (2002), Методы многомерного анализа, Нью-Йорк: Wiley.
- Саймон, Герберт А .; Андо, Альберт (1963), «Агрегация переменных в динамических системах», у Альберта Андо; Франклин М. Фишер; Герберт А. Саймон (ред.), Очерки структуры моделей социальных наук, Кембридж, Массачусетс: MIT Press, стр. 64–91.
- Саймон, Герберт А. (1996), «Архитектура сложности: иерархические системы», в Герберте А. Саймоне (ред.), Науки об искусственном (2-е изд.), Кембридж, Массачусетс: MIT Press, стр. 183–216.
- Слезак, Доминик; Сынак, Петр; Война, Аркадиуш; Вроблевски, Якуб (2013), «Две связанные с базой данных интерпретации грубых приближений: организация данных и выполнение запросов», Fundamenta Informaticae, 127 (1–4): 445–459, Дои:10.3233 / FI-2013-920.
- Тинг, Кай Мин (1994), Дискретизация атрибутов с непрерывным значением и обучение на основе экземпляров (Технический отчет № 491), Сидней: Basser Департамент компьютерных наук.
- Ван, Кэ; Лю, Бинг (1998), «Параллельная дискретизация нескольких атрибутов», в Springer (ред.), Труды 5-й Международной конференции стран Тихоокеанского региона по искусственному интеллекту, Лондон: Springer-Verlag, стр. 250–259..
- Ватанабэ, Сатози (1960), "Информационно-теоретический анализ многомерной корреляции", Журнал исследований и разработок IBM, 4 (1): 66–82, Дои:10.1147 / ряд 41.0066.
- Ватанабэ, Сатози (1969), Знание и предположение: количественное исследование выводов и информации, Нью-Йорк: Wiley.
- Виттен, Ян Х .; Франк, Эйбе (2005), Интеллектуальный анализ данных: практические инструменты и методы машинного обучения (2-е изд.), Амстердам: Морган Кауфманн
- Яо, Ю. (2004) "Модель разделов гранулярных вычислений", конспект лекций по информатике (в печати)
- Яо, Ю. Ю. (2001). «О моделировании интеллектуального анализа данных с помощью гранулярных вычислений». Материалы 25-й ежегодной международной конференции по компьютерному программному обеспечению и приложениям (COMPSAC 2001). С. 638–643.
- Яо, Юй (2006). «Гранулярные вычисления для интеллектуального анализа данных» (PDF). В Дашарати, Белур В. (ред.). Труды конференции SPIE по интеллектуальному анализу данных, обнаружению вторжений, обеспечению безопасности информации и безопасности сетей передачи данных. Архивировано из оригинал (PDF) на 2007-04-18.
- Yao, J. T .; Яо, Ю. Ю. (2002). «Введение правил классификации с помощью гранулярных вычислений» (PDF). Труды Третьей Международной конференции по грубым наборам и текущим тенденциям в вычислительной технике (TSCTC'02). Лондон, Великобритания: Springer-Verlag. С. 331–338.
- Заде, Л.А. (1997) "К теории грануляции нечеткой информации и ее центральному положению в человеческих рассуждениях и нечеткой логике", Нечеткие множества и системы, 90:111-127
- Зигхед, Д. А .; Rabaséda, S .; Ракотомалала, Р. (1998), «FUSINTER: метод дискретизации непрерывных атрибутов», Международный журнал неопределенности, нечеткости и систем, основанных на знаниях, 6 (3): 307–326, Дои:10.1142 / s0218488598000264.