260 likes | 702 Views
Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux. http://www.RCO.ru 119899, Москва, Ленинские Горы, влад. 1, стр. 75 Г тел : +7 (095) 93 0 - 8759/58 E-mail : rco@metric.ru. Эксклюзивный авторизованный партнер в Украине ООО Текон
E N D
Технологии анализа и поиска текстовой информации. Russian Context Optimizer для платформы Linux http://www.RCO.ru 119899, Москва,Ленинские Горы, влад. 1, стр. 75 Гтел: +7 (095) 930-8759/58E-mail:rco@metric.ru Эксклюзивный авторизованный партнер в Украине ООО Текон 01010, Киев - 10ул. Январского восстания, 14, оф. 43тел. 38044 290-01-80тел./факс 38044 254-29-39 tecon@tecon.com.uahttp://www.tecon.com.uahttp://oracle.ukrsat.com Конференция Oracle Technology Day
Содержание • Введение • Oracle Text – краткий обзор • Russian Context Optimizer • Обзор • Возможности • Технологии • Архитектура • Перспективы Конференция Oracle Technology Day
Текст Почему бы не использовать при принятии решений? • 90% информации – текст • Web, E-mail, Файлы,... • MS Office, PDF, HTML, XML,… Конференция Oracle Technology Day
Требования к поиску Какой хотелось бы видеть подсистему поиска? • Надежность / масштабируемость / производительность • Обработка и хранение разнородной информации • Мощный поисковый механизм • Средства анализа текста Конференция Oracle Technology Day
Что предлагает Oracle • Oracle Text • Индексирование, Поиск • Тематический анализ, Классификация • Много форматов, кодировок, XML • Ultra Search • Гетерогенные хранилища (Tables, Files, Web, IMAP,…) • Сквозной поиск • iFS • Хранение, управление, совместная работа Конференция Oracle Technology Day
Oracle Text • Полностью интегрирован с базой данных • Полноценные поисковые возможности • Поддержка более 100 форматов документов – Inso Filters • Продвинутая лингвистика – Stemming, Fuzzy, Soundex, Theme Lexing, Gists, Thesaurus, Classification, Clustering Конференция Oracle Technology Day
Сложности с русским языком • Поиск – только без учета словоформ НО... • Oracle Text – расширяем • Oracle Database – много возможностей Конференция Oracle Technology Day
Russian Context Optimizer • Назначение продукта • Лингвистическое обеспечение и оригинальные алгоритмы для полноценной работы с русскоязычными документами в Oracle Text • Версии • Ноябрь 1997 – RCO 1.0 • Ноябрь 2002 – RCO 4.0.1 Конференция Oracle Technology Day
RCO –Позиционирование Конференция Oracle Technology Day
RCO – Обзор– I • Аналоги всех возможностей Oracle Text для русского языка • Морфология, тезаурус • Средства актуализации лингвистического обеспечения • Нечеткий поиск, тематический анализ, рефераты, рубрицирование Конференция Oracle Technology Day
RCO – Обзор– II • Кодировки – все для русского языка + UTF8 • С точки зрения разработчика – PL/SQL Package • Платформы – LINUX, а также…WinNT/2000, HP-UX, SUN Solaris, IBM AIX, Compaq Tru64 Конференция Oracle Technology Day
Учет словоформ Учет опечаток Учет синонимов Учет связей между темами Подсветка Тематический портрет документа Семантическая сеть по массивудокументов RCO – Возможности ПОИСК АНАЛИЗ СИНТЕЗ • Ключевые темы • Рефераты • Соответствие рубрикам • Тематическая структура • Изменения тематики потока во времени Конференция Oracle Technology Day
RCO – Поиск • Словоформы • президент=президента=президенту=... • Опечатки • Черномырдин=Чернормырдин=Черномырдным=Чермомырдиным • Синонимы • вор=тать=жулик=жулье=ворюга=воришка=воровка • Тематически близкие • золото=слиток=ювелирное изделие=... Конференция Oracle Technology Day
RCO – Анализ Ассоциативная семантическая сеть Конференция Oracle Technology Day
RCO – Синтез – Текст Москва, 28 ноября /МК-Новости/. В январе – октябре 1997года в России было добыто 92,2 тонны золота. Выплавлена 71 тонна золотых слитков. Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем – октябрем 1996 года добыча золота снизилась на 7,7%, а выплавкаслитков - на 2,3%. Произошли существенные изменения в географии добычи золота: в Республике Саха - Якутия она снизилась на 19,7%, на Камчатке – на 21,9%. Возросла золотодобыча в Красноярском крае – на 71,8%, на Чукотке - в 2 раза, в Пермской области – на 62,8%. Выплавлена 71 тонна золотых слитков. Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем - октябрем 1996 года добыча золота снизилась на 7,7%, а выплавка слитков - на 2,3%. Произошли существенные изменения в географии добычи золота: в Республике Саха - Якутия она снизилась на 19,7%, на Камчатке – на 21,9%. ДОБЫЧА ЗОЛОТА, ЗОЛОТО Как сообщили агентству "МК-Новости" в Госкомстате РФ, по сравнению с январем – октябрем 1996 года добыча золота снизилась на 7,7%, а выплавкаслитков - на 2,3%. ВЫПЛАВКА, ЗОЛОТОЙ СЛИТОК Выплавлена 71 тонна золотых слитков. Не обязательно читать весь документ Конференция Oracle Technology Day
RCO – Синтез – Рубрицирование Легко понять структуру и сузить область поиска Конференция Oracle Technology Day
RCO – Синтез – Динамика Легко понять изменения и сузить область поиска Конференция Oracle Technology Day
RCO – Технологии Лингвистическое обеспечение Морфология Тезаурус Базовые алгоритмы Нечеткий поиск Тематический анализ Автоматическое реферирование Классификация Кластерный анализ Прикладные алгоритмы Конференция Oracle Technology Day
RCO – Лингвистическое обеспечение • Морфологический словарь • Словарная морфология - 110 000 слов • Бессловарная морфология • Тезаурус • Общий объем – 75 000 единиц • Cинонимы - 17 000 рядов • Гипонимы (общее – частное) – 22 000 рядов • Общеупотребимая лексика – 10 000 слов Конференция Oracle Technology Day
RCO – Базовые алгоритмы • Нечеткий поиск • Fuzzy и Soundex для русского языка • Расширение только словами из индекса • Можно регулировать степень подобия • Тематический анализ • В основе ассоциативная семантическая сеть • Можно настраивать Конференция Oracle Technology Day
RCO – Прикладные алгоритмы • Рефераты • Общий (gist) • По теме (point-of-view gist) • Классификация • Обучение • Настройка перечня тем и весов вручную • Построение рубрикаторов • Построение «на лету» • 3 стратегии Конференция Oracle Technology Day
RCO Executive RCO –Архитектура Oracle Database RCO Listener Shared Memory User PL/SQL Application Queue Oracle Text RCO package OCI RCO Indexes & Settings Oracle Text Indexes & Settings RCO Filter Inso Filters Конференция Oracle Technology Day
RCO – Направления развития • Более тесная интеграция с Oracle • 9iR2, USER_LEXER,… • Внедрение новых технологий • Синтактико-семантический анализ и синтез • Движение по направлению к ИАС • Категории объектов и связей • Открытая семантическая сеть Конференция Oracle Technology Day
RCO – Лицензирование • Standard vs EnterpriseEdition • RCO Ling: пакет актуализации лингвистического обеспечения • Единица лицензирования • Named User • Processor • Количество лицензий • Oracle Конференция Oracle Technology Day
Гарант-Парк-Интернет rco@metric.ru http://www.rco.ru http://demo.rco.ru Эксклюзивный авторизованный партнер в Украине ООО Текон 01010, Киев - 10ул. Январского восстания, 14, оф. 43тел. 38044 290-01-80тел./факс 38044 254-29-39 tecon@tecon.com.uahttp://www.tecon.com.uahttp://oracle.ukrsat.com Конференция Oracle Technology Day