620 likes | 823 Views
Варианты использования онтологий для решения прикладных задач. Тузовский А.Ф. Институт «Кибернетический центр Томского политехнического университета». План доклада. Понятие онтологических приложений. Существующие классификации вариантов использования онтологий.
E N D
Варианты использования онтологий для решения прикладных задач Тузовский А.Ф. Институт «Кибернетический центр Томского политехнического университета»
План доклада • Понятие онтологических приложений. • Существующие классификации вариантов использования онтологий. • Классификация на основе базовых методов работы с онтологией.
Пример простой RDFS онтологии и RDF метаданных
Определение онтологического приложения • Под онтологическим приложением, чаще всего, понимается прикладная программа, которая использует и получает основные преимущества от онтологии [Uschold]. • Хотя концепция Semantic Web вначале рассматривалась, как расширение текущей инфраструктуры Web сети, теперь общепринято называть программное обеспечение, основанное на онтологиях, «SW application», даже если оно не предназначено для работы в глобальном масштабе (например, интранет приложение) и не интегрирует существующее содержание web сети [Mike].
Основания классификации вариантов использования онтологий • по областям применения • по сценариям использования • по процессам работы со знаниями • по типам программных систем • по типам конечных приложений (прикладных программ) • по базовым методам использования онтологий • Методы работы с онтологической моделью • Методы работы с метаданными
Онтологическая база знаний Метаданные (контекстные + контентные) Описание онтологий + • ontology knowledge base (3720) • semantic knowledge base (911) • semantic repository (4680)
Семантические метаданные si1 sk1 ri1 ri1 … rij ri2 … si Контекстные метаданные rin rim sim skn
(1) Классификация по областям использования [Fensel, 2003] • Корпоративный интранет и Управление знаниями; • E-Commerce (B2B, B2C); • Информационный поиск; • Порталы и Web сообщества.
(2) Сценарии использования [Ushold] • Поддержка независимых от приложений онтологий (Neutral Authoring) • Онтологии в качестве спецификаций (Ontology as Specification)
Сценарии использования (2) • Общий доступ к информации (Common Access to Information) • Коммуникация между людьми; • Доступ к информации используя совместную онтологию • Доступ к данным посредством отображения онтологий • Совместно используемые сервисы (Shared Services)
Сценарии использования (3) • Основанный на Онтологиях Поиск (Ontology-Based Search) • Основа для семантически структурированного и организованного хранилища информации • Оказание помощи в формулировке запросов • Автоматическая разметка и классификация документов
(3) Классификация по поддерживаемым процессам работы со знаниями [Mike] • Поддержка процесса коммуникацией • общение между сотрудниками разных подразделений • интерфейс для организации поиска в архиве документов • Поддержка процесса интеграции • семантический портал • организационная (корпоративная) память • Поддержка процесса логического вывода • Интеграция разнородных источников информации • Использования онтологий в качестве спецификаций • Мультиагентные системы
Использование онтологий в приложениях [Mike] Повышение формальности Логический вывод Интеграция Коммуникация Более сложные приложения
(4) Классификация по типам программных систем • семантический браузер ("semantic browser” 5060) • семантический портал ("semantic portal” 21000) • мульти-агентные системы (“semantic multi agents” 36900) • семантические сервисы (“semantic services” 63200) • семантические гриды (“semantic grids” 53500) • semantic wiki (51200) • semantic blogging (16800)
(5) Классификация по приложениям конечных пользователей [TopQuadrant] • Аннотирование • Автоматическая разметка контента (AutomatedContentTagger) - Тэги автоматически вставляются в документ на основе программного анализа информации, обычно используя методы анализа естественного языка. Заранее определенная таксономия или онтология терминов и понятий используется для организации проведения анализа. • Аннотирование контента (ContentAnnotator) – Пользователям предоставляет возможность добавления аннотаций к электронному контенту. Под аннотациями понимаются: комментарии, заметки, пояснения и семантические тэги.
Приложения конечных пользователей (2) • Поиск • Основанный на понятиях поиск (Concept-basedSearch) – Для предоставления возможностей точного и использующего понятия поиска, специфического для интересующей пользователя области, используя представление знания в разных источниках знаний (информации), как структурированных, так и не структурированных. • Поиск, учитывающий контекст (Context-AwareRetriever) • Улучшенные поисковые запросы (EnhancedSearchQuery) • Поиск экспертов (ExpertLocator) • Навигационный поиск (NavigationalSearch)
Приложения конечных пользователей (3) • Информационная поддержка пользователей • Системы автоматического ответа на вопросы (AnswerEngine) • Виртуальный консультант (VirtualConsultant) • Доставка информации с учетом интересов пользователя (Interest-basedInformationDelivery) • Интеллектуальный интерфейс • Динамический пользовательский интерфейс (DynamicUserInterface) • Автоматическое форматирование (документирование) (GenerativeDocumentation) • Семантическое генерирование форм и Классификация результатов (SemanticFormGeneratorandResultsClassifier)
Приложения конечных пользователей (4) • Информационная поддержка пользователей • Системы автоматического ответа на вопросы (Answer Engine) • Виртуальный консультант (Virtual Consultant) • Доставка информации с учетом интересов пользователя (Interest-based Information Delivery)
Приложения конечных пользователей (5) • Выявление связей и шаблонов (ConnectionandPatternExplorer) • Семантическое поиск и объединение сервисов (SemanticServiceDiscoveryandChoreography) • Семантическая интеграция данных (SemanticDataIntegrator) • Поддержка проектирования новой продукции (ProductDesignAssistant).
(6) Классификация по базовым методам использования онтологий • Методы работы с онтологической моделью • Методы работы с онтологической базой знаний • Методы работы с семантическими метаданными
Семантические метаданные si1 sk1 ri1 ri1 … rij ri2 … si Контекстные метаданные rin rim sim skn Реификация sk2 si Контентные метаданные sk1
Семантические метаданные онтологической модели Мi= {Mki(), Mci()} , где • Mki() – контекстные метаданные, описывающие взаимосвязи понятия с другими понятиями или литералами, Mki() = (r1(сi, v1) ∧r2(сi, v2) ∧ … ∧rr(сi, vr)), • Mci() – контентныеметаданные, описывающие знания, которые содержатся в экземпляре понятия. Mсi() = ({r1(с1, v1), k1} ∧ {r2(с2, v2), k2} ∧ … ∧ {pk(сk, vk), kk}), где • ri- предикат (отношения) из онтологии; • si– экземплярили понятие онтологии ; • vi - экземпляр или литерал; • ki -важность данного утверждения для объекта i.
Типы триплетов в контентных метаданных • <C,R,C>, <I,R,I>, <C,R,I>, <I,R,V>, <C,R,NULL>, <C,NULL,NULL>, <I,R,NULL>, <I,NULL,NULL>, где • C – понятие; I – экземпляр понятия; R – связь; A – атрибут; V – значение атрибута (текстовое или числовое).
Общая схема использования онтологий для решения практических задач Уровень приложения Уровень онтологий Промежуточный уровень Навигация между экземплярами понятий или ресурсами Поиск ассоциаций между экземплярами понятий в метаданных Системы логического вывода Оценка семантического подобия между контекстными и контентными метаданными. DIG Онтологическая база знаний (RDF Triple Store) Онтология RDFS/OWL SPARQL Поиск семантически близких понятий или ресурсов RDF RDF Классификация на основе описания иерархии рубрик Редактор контекстных метаданных Аннотирование (контекстные метаданных) Разметка текстов для задания связи с понятиями или ресурсами Экземпляры понятий Ресурсы информации и знаний Интеграция разнородных баз данных и информации
[1] Классификация по базовым методам работы с онтологической модели • поиск отображений (mapping) • слияние (merging & aligning) • объединение • верификация
[2] Классификация по базовым методам работы с онтологической базой знаний • онтологические базы знаний • поиск триплетов в хранилище (SPARQL) • логический вывод (reasoners)
Хранение триплетов в базе данных • Хранилище триплетов это: • База данных с тремя колонками, но миллионами и миллиардами строк • Может потребоваться специальный компьютер. • Основные показатели: • - Время получения триплетов в приложение. • - Время сохранения триплетов в БД. • - Время перехода к нужному элементу. • Примеры проектов: • Kowari • 3Store • Sesame RDF "Triple Store" See: http://simile.mit.edu/reports/stores/
Существующие онтологические базы знаний • Коммерческие • Oracle • RDF Gateway (Intellidimension) • Свободно распространяемые • Sesame • Kowari • 3Store • . . . • Специальные
Язык запросов SPARQL Язык запросов SPARQL, стандартизирован в 2008 г. W3C – аналог SQL для RDBMS. Пример запроса “вывести названия всех документов, созданных Петром Ивановым” на SPARQL: PREFIX dc: <http://purl.org/dc/elements/1.1/> PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?title WHERE { ?document foaf:name “Петр Иванов”. ? document dc:title ?title}
Возможности СУБД Oracle 11g по работе с семантикой
Deductive Database Engine • RDF Gateway имеет мощную дедуктивную СУБД (deductive database engine), которая изначально проектировалась для поддержки RDF. • Полу-структурированная организация данной системы идеально подходит для выполнения запросов и хранения RDF триплетов. • Имеет встроенную систему дедуктивного логического вывода. • Данная система выполняет восходящую (bottom-up) обработку запросов, которые интегрируются по всем заданным источникам данных. Возможности логического вывода системы обеспечивают поддержку синтаксиса декларативных правил RDFQL. • Данная системареализует хранение в файлах собственной структуры с возможностью полнотекстового поиска, устраняя необходимость во внешней СУБД.
Приложение HTTP / SPARQL protocol HTTP Server Приложение Прикладные методы API доступа к хранилищу SPARQL RDF Model RDBMS Архитектура системы Sesame
Реляционная схема онтологической базы знаний
Компонентная архитектура онтологической базы знаний
[3] Классификация по базовым методам работы с семантическими метаданными • семантическое аннотирование (semantic annotation - 83700) • семантическая навигация (semantic navigation - 8560) • выявление семантических ассоциаций (semantic association - 20300) • семантический поиск (semantic search - 562 000) • семантическая классификация (semantic classification - 27800) • семантическая разметка (semantic tagging - 39 700) • семантическая интеграция (semantic integration - 136 000)
Семантическая аналитика • Автоматический анализ семантических метаданных • Углубленный анализ и поиск разнородных объектов знаний - миллионы сущностей и явных взаимосвязей • Выявление осмысленных сложных взаимосвязей • Области приложения • Оценка террористических угроз • Борьба с отмыванием денег • Соответствие финансового состояния
Определение семантической близости • Семантическая связанность • Между объектами имеются различные последовательности свойств и сущностей(семантические пути) • Семантическое подобие • Между утверждениями в описании объектов имеется семантическое сходство
семантически связанные p1 p4 э4 э2 э3 p2 p3 Семантическая связанность • Сложные взаимосвязи между объектами • Последовательность свойств соединяющих промежуточные экземпляры э1 э5
P1 O1 участвовать_в руководить инициировать P2 M1 Пример связанности • Рассмотрим три утверждения: • Человек (P1) участвовать_в Мероприятие (M1) • Организация (O1) инициирует Мероприятие (M1) • Организация (O1) руководить Человек (P1) • Экземпляры:
Варианты реализации навигация • в виде графа • в виде табличных форм
Оценка близости (подобия) метаданных • Семантическое подобие контекстных метаданных • Семантическое подобие контентных метаданных
Онтология Понятие4 Понятие1 Понятие3 Метаописание Объекта1 Метаописание Объекта2 Понятие N Понятие 2 Схема семантического пространства
Два понятия c1 и c2являются семантически близкими, если [Gonzalez-Castillo] • c1 является эквивалентным c2 или • c1 является подпонятием c2 или • c1 является суперпонятием понятия s, и s включается в c2 или • c1 является подпонятием прямого суперпонятия c2, чье пересечение с c2 является выполнимым (satisfiable).
c0 (3) Не соответствует Не соответствует d1 c1 d3 (3) Аналогичен c2 x (3) c3 с4 (4) (2) c5 (2) d4 c6 c7 (2) Понятия близкие понятию x
Оценка семантической близости контекстных метаданных Понятия с и d являются семантически сопоставимыми, если выполняется утверждение дескриптивной логики: Match (c, d) = {c, d C | (1) (c d)| (2) (c d)| (3) ( s C | s c s d) | (4) ( s C | parent (c, s) d s K ╞(с d) ) (5) }, где parent (c, s) определено как истина если s с { t C | с t с t с = t t = s}, иначе ложь. Проверка этих условий возможно путем формирования запросов к системе логического вывода дескриптивной логики.
Оценка семантической близости контентных метаданных • simС(ci, ck) - семантическая близость понятий; • simR(ri, ry) - семантическая близость отношенийонтологий; • simI(ik, iz)- семантическая близость контекстных метаданных экземпляров понятий; • f(kl, kw) – функция учета коэффициентов важности утверждений.