260 likes | 441 Views
Теория баз данных и информационного поиска. Информационно-графовая модель данных. Содержание. Метод управляющих систем в теории информационного поиска Поиск идентичных объектов Интервальный поиск Включающий поиск Задача информационного поиска Поиск идентичных объектов 2 Базовое множество
E N D
Теория баз данных и информационного поиска Информационно-графовая модель данных
Содержание • Метод управляющих систем в теории информационного поиска • Поиск идентичных объектов • Интервальный поиск • Включающий поиск • Задача информационного поиска • Поиск идентичных объектов2 • Базовое множество • Пример базового множества • Информационный граф • Решение задачи информационного поиска • ИГ, решающий задачу поиска • Алгоритм, соответствующий ИГ • Сложность информационных графов • Поиск идентичных объектов 3 • Включающий поиск 2 • Интервальный поиск 2 • Литература
Метод управляющих систем в теории информационного поиска • Шаг 1. Определяется понятие задачи информационного поиска и функции ответа, реализуемой этой задачей. • Шаг 2. Вводится специальная схема (называемая информационным графом), которая моделирует алгоритм поиска и реализует функцию ответа. • Шаг 3. Вводятся сложностные характеристики информационного графа (число ребер графа, время поиска в среднем и худшем случае). • Шаг 4. Находятся нижние оценки временной сложности для рассматриваемых задач информационного поиска. • Шаг 5. Строится информационный граф, реализующий функцию ответа и имеющий сложность, близкую к нижней оценке.
Поиск идентичных объектов • Y=[0,1] - множество записей. • X=[0,1]- множество запросов. • V- база данных. • Поиск идентичных объектов: для любогоxнайтиy такую, чтоx
Интервальный поиск [ ] • .Y=[0,1]– множество записей. • .Xмножество запросов. • .Vбаза данных. • Интервальный поиск: для • любого запросаu • перечислить все те и • только тезаписи ,y • которыеu
Включающий поиск • .Y- множество записей. • X- множество запросов. • .V- база данных. • Включающий поиск: для любого запроса • x • перечислить все те и только те записи • y • которые 1111 1101 1011 1110 0111 1001 1010 1100 0101 0011 0110 1000 0001 0010 0100 0000
Задача информационного поиска • - множество записей. • - множество запросов. • < - вероятностное пространство, где-алгебраподмножеств , -вероятностная мера на. • - бинарное отношение. • - тип информационного поиска. • Если и , то- задача информационного поиска типа . • Задачаинформационного поиска : для произвольного запроса перечислить те и только те записи, для которых.
для любого Поиск идентичных объектов Бинарный поиск if , найти
Базовое множество • - множество запросов. • - предикат. • - переключатель. • - множество предикатов. • - множество переключателей. • - базовое множество.
Пример базового множества • - мн-во запросов. • - мн-во предикатов. • , • - множество переключателей. • - базовое множество.
Информационный граф если если - множество записей, включенных в ответ на запросx проводимость предикатного ребра на запросеx проводимость переключательного ребра на запросеx запись включается в ответ на запросx проводимость пути на запросеx нагрузка переключательных вершин нагрузка переключательных ребер нагрузка предикатных ребер переключательные вершины переключательные ребра предикатные ребра нагрузка листьев листья корень
Решение ЗИП • Проводимостьпредикат. ребра: • Проводимость переключательногоребра : • Проводимость путиC из ребер: • Функция фильтра вершины:Х • Характеристическаяфункция записиXдля отношения • ИГрешаетЗИП если для любого запроса выполнено • ТеоремаИГрешает ЗИП точно тогда, когда для любой записи выполнено корень ИГ
Характеристические функции включающего поиска
ИГ, решающий задачу включающего поиска • а 1111 1101 1011 1110 0111 1001 1010 1100 0101 0011 0110 1000 0001 0010 0100 0000
ИГ, решающий задачу интервального поиска
Алгоритм, соответствующий ИГ • Устанавливаем ответкорень ИГ помечаем и включаем в вспомогательное множествоA. • Для каждой вершины , выполняем следующее: • если-лист, то записьприписанная листувключается в ответ ; • если- переключательная вершина, товычисляем переключательприписанный вершине ; еслии - номер, приписанный переключательному ребруивершина- непомеченная, то помечаем вершинуи включаем ее в множествоA; • если- не переключательнаявершина, топросматриваем все ребра, исходящие из ; для каждого ребраисходящего из, вычисляем предикат,приписанныйпредикатномуребруесли и вершина- непомеченная, товершинупомечаем и включаем в множествоA; • вершинуисключаем из множестваA.
Алгоритм, соответствующий ИГ • а 1111 1101 1011 1110 0111 1001 1010 1100 0101 0011 0110 1000 0001 0010 0100 0000
Алгоритм, соответствующий ИГ [ ] [ ]
Сложность ИГ • Q(U) – число ребер ИГU. • .- число ребер, исходящих из вершины ; - множество вершинИГU; - множествопереключательныхвершинU; еслиf - предикат, определенный наX, то • СложностьИГ Uна запросеx: • Сложность ИГUвхудшем случае: • - множествоИГнад, решающихЗИПI. • - вероятностное пространство над X. • Сложность ИГUв среднем:T(U)=ET(U,x), т.е. • СложностьЗИПIдлябазового множестваи объемаq: • СложностьЗИП Iдля:
СложностьИГ,решающего задачу включающего поиска • . • . • . 1111 1101 1011 1110 0111 1001 1010 1100 0101 0011 0110 1000 0001 0010 0100 0000
Сложность ИГ, решающего задачу интервального поиска [ ] [ ]
Поиск идентичных объектов • X=Y=(0,1]. - тип поиска идентичных объектов. • ТеоремаПустьвероятностнаямераPзаданафункцией плотностивероятностиI , , |V|=k , - базовое множество, заданное (1)-(4); тогдаI и существуеттакой ИГI, что
Включающий поиск • ЕслиyтоO • ЕслиI- ЗИП,тоR • S- тип включающего поиска. • - множество всех монотонных конъюнкций от nпеременных. • - множество монотонных булевых функций отn переменных. • ТеоремаПустьF- базовое множество, где • F , xдля любогоx ; тогда • T для любой ЗИП I и существует • такая ЗИПIчтоT, • гдеas
Пример включающего поиска • . • . • . • . • . • . • . • . • . 1111 1101 1011 1110 0111 1001 1010 1100 0101 0011 0110 1000 0001 0010 0100 0000
Интервальный поиск • X - множество запросов. • ТеоремаПустьвероятностнаямераPзадается функцией плотности вероятностиI , - задачаинтервального поиска, - базовое множество (1)-(5), тогдаI
Литература • Гасанов Э.Э. Теория сложности информационного поиска. Изд-во МГУ, Москва, 2005. • Гасанов Э.Э., Кудрявцев В.Б. Теория хранения и поиска информации. Физматлит, Москва, 2002. • Гасанов Э.Э. Об одной математической модели информационного поиска. Дискретная математика(1995) 3, N 2, 69-76. • Гасанов Э.Э. Об одномерной задаче интервального поиска. Дискретная математика(1995) 7, N 2, 40-60. • Гасанов Э.Э. Мгновенно решаемые задачи поиска. Дискретная математика(1996) 8, N 3, 119-134. • Гасанов Э.Э. Нижняя оценка сложности информационных сетей для одного отношения частичного порядка. Дискретная математика(1996) 8, N 4, 108-122. • Гасанов Э.Э. Нижняя оценка сложности включающего поиска в классе древовидных схем. Дискретная математика(1998) 10, N 1, 63-72. • Гасанов Э.Э., Кузнецова И.В. О функциональной сложности двумерной задачи интервального поиска. Дискретная математика(2002) 14, N 1, 114-141.