WikiDer > Вероятностная база данных

Probabilistic database

Большинство реальных баз данных содержат данные, правильность которых сомнительна. Чтобы работать с такими данными, необходимо количественно оценить целостность данных. Это достигается за счет использования вероятностных баз данных.

А вероятностная база данных является неопределенная база данных в которой возможные миры связаны вероятности. Вероятностный системы управления базами данных в настоящее время являются активной областью исследований. «Хотя в настоящее время нет коммерческих систем вероятностных баз данных, существует несколько исследовательских прототипов ...»^[1]

Вероятностные базы данных различают логическая модель данных и физическое представление данных очень похоже на реляционные базы данных делать в Архитектура ANSI-SPARCВ вероятностных базах данных это еще более важно, поскольку такие базы данных должны представлять очень большое количество возможных миров, часто экспоненциально по размеру одного мира (классический база данных), лаконично.^[2]^[3]

Терминология

В вероятностной базе данных каждый кортеж связан с вероятностью от 0 до 1, где 0 означает, что данные определенно неверны, а 1 означает, что они определенно верны.

Возможные миры

Вероятностная база данных может существовать в нескольких состояниях. Например, если мы не уверены в существовании кортежа в базе данных, то база данных может находиться в двух разных состояниях по отношению к этому кортежу - первое состояние содержит кортеж, а второе - нет. Аналогично, если атрибут может принимать одно из значений Икс, у или z, то база данных может находиться в трех разных состояниях по отношению к этому атрибуту.

Каждый из них состояния называется возможным миром.

Рассмотрим следующую базу данных:

Неполная база данных
А	B
а1	b1
а2	Би 2
а3	{b3, b3 ′, b3 ′ ′}

(Вот {b3, b3 ′, b3 ′ ′} означает, что атрибут может принимать любое из значений b3,b3 ′ или b3 ′ ′)

Предположим, что мы не уверены в первом кортеже, уверены во втором кортеже и не уверены в значении атрибута B в третьем кортеже.

Тогда фактическое состояние базы данных может содержать или не содержать первый кортеж (в зависимости от того, правильный он или нет). Аналогично значение атрибута B может быть b3,b3 ′ или b3 ′ ′.

Следовательно, возможные миры, соответствующие базе данных, следующие:

Мир 1
А	B
а1	b1
а2	Би 2
а3	b3

Мир 2
А	B
а1	b1
а2	Би 2
а3	b3 ′

Мир 3
А	B
а1	b1
а2	Би 2
а3	b3 ′ ′

Мир 4
А	B
а2	Би 2
а3	b3

Мир 5
А	B
а2	Би 2
а3	b3 ′

Мир 6
А	B
а2	Би 2
а3	b3 ′ ′

Типы неопределенностей

По сути, существует два вида неопределенностей, которые могут существовать в вероятностной базе данных, как описано в таблице ниже:

Типы неопределенностей
Неопределенность на уровне кортежа	Неопределенность на уровне атрибутов
Здесь мы не уверены, правильный кортеж или нет, то есть должен ли он существовать в базе данных или нет.	Здесь мы не уверены в том, какие значения может принимать атрибут кортежа, то есть он может принимать одно из нескольких возможных значений.
В соответствии с каждым неопределенным кортежем существует два возможных мира: один включает кортеж, а другой - нет.	Соответствует каждому неопределенному атрибуту, который может принимать одно из значений а₁, ..., а_п, есть п возможные миры.
Неопределенность на уровне кортежа можно рассматривать как логическую случайную величину, связанную с каждым неопределенным кортежем.	Неопределенность на уровне атрибута можно рассматривать как случайную величину, связанную с каждым неопределенным атрибутом, которая может принимать значения. а₁, ..., а_п.

Присваивая значения случайным переменным, связанным с элементами данных, мы можем представлять различные возможные миры.

История

Впервые термин «вероятностная база данных» был опубликован, вероятно, в статье Кавалло и Питтарелли на конференции VLDB 1987 года «Теория вероятностных баз данных».^{[нужна цитата]} Название (8-страничного доклада) было задумано как шутка, поскольку 600-страничная монография Дэвида Майера «Теория реляционных баз данных» была бы известна в то время большинству участников конференции и читателям материалов конференции. .

внешняя ссылка

Проект MayBMS на Корнелл Университет (сайт проекта sourceforge.net)
В MystiQ проект на Вашингтонский университет
В Орион проект в Университет Пердью
В Трио проект в Стэндфордский Университет
В BayesStore проект на Калифорнийский университет в Беркли
В PrDB проект на Университет Мэриленда, Колледж-Парк
В Мимир проект на Университет Буффало

[1] Винод Мутусами, Хайфэн Лю, Ханс-Арно Якобсен: Предиктивное сопоставление публикации / подписки. Университет Торонто.

[2] Нилеш Н. Далви, Дэн Сучиу: Эффективная оценка запросов к вероятностным базам данных. VLDB J. 16 (4): 523-544 (2007).

[3] Люблена Антова, Кристоф Кох, Дэн Олтяну: 10 ^ (10 ^ 6) Миры и за их пределами: эффективное представление и обработка неполной информации. ICDE 2007: 606-615

[1]

[2]

[3]

v т е Системы управления базами данных
Типы	Объектно-ориентированный сравнение Реляционный список сравнение Ключ-значение Столбец ориентированный список Ориентированный на документы Магазин с широкой колонной График NoSQL NewSQL В памяти список Мультимодель сравнение Облако
Концепции	База данных КИСЛОТА Аксиомы Армстронга 12 правил Кодда CAP теорема CRUD Значение NULL Ключ кандидата Внешний ключ Суперключ Суррогатный ключ Уникальный ключ
Объекты	Связь Таблица столбец ряд Посмотреть Сделка Журнал транзакций Триггер Индекс Хранимая процедура Курсор Раздел
Компоненты	Контроль параллелизма Словарь с данными JDBC XQJ ODBC Язык запроса Оптимизатор запросов Система перезаписи запросов План запроса
Функции	Администрация Оптимизация запросов Репликация Шардинг
похожие темы	Модели базы данных Нормализация базы данных Хранилище базы данных Распределенная база данных Система федеративных баз данных Ссылочная целостность Реляционная алгебра Реляционное исчисление Реляционная база данных Реляционная модель Объектно-реляционная база данных Обработка транзакции
Категория Контур ВикиПроект

Navigation