320 likes | 406 Views
Seminário IN1099 Information Retrieval & Text Mining. Luciano de Souza Cabral CIn-UFPE. Roteiro. Introdução Motivação Recuperação de Informação Mineração de Textos Extração da Informação Extração do Conhecimento KDT Data Mining versus Text Mining Conclusão Referências. Introdução.
E N D
Seminário IN1099InformationRetrieval & TextMining Luciano de Souza Cabral CIn-UFPE
Roteiro • Introdução • Motivação • Recuperação de Informação • Mineração de Textos • Extração da Informação • Extração do Conhecimento • KDT • Data Mining versus Text Mining • Conclusão • Referências
Introdução Crescimento das coleções de textos digitais (bibliotecas digitais, Internet, Intranets, ...) + Crescimento exponencial da World Wide Web Novas técnicas de recuperação de informações (IR)
Motivação “Estamos morrendo ignorantes num mar de informações.” (Desconhecido) O que fazer para encontrar (de forma eficiente) os melhores documentos que satisfaçam a pesquisa /consulta do usuário.
Recuperação da Informação • Área de pesquisa e desenvolvimento que investiga métodos e técnicas para a representação, a organização, o armazenamento, a busca e a recuperação de itens de informação. • Objetivo principal: facilitar o acesso a documentos relevantes à necessidade de informação do usuário.
Conceito de Recuperação da Informação • A Recuperação da Informação trata dos aspectos intelectuais da descrição da informação e sua especificação para a busca, e também de qualquer sistema, técnicas ou máquinas que são empregadas para realizar esta operação. [Mooers, 1951]
Modelos de Recuperação da Informação Eficiência de um sistema depende principalmente do modelo que o mesmo utiliza: • Modelos quantitativos • Modelos dinâmicos • Linguagem natural • Ambiente Web - Web Semântica
Abordagens de RI • Busca automática baseada em palavra-chave • Técnicas de Indexação • Manual e Automática • Técnicas de Classificação • Conceitos importantes • “ranking” • “stemming” • “tesaurus”
Critérios utilizados em RI • Revocação • Grau de sucesso: número de documentos relevantes recuperados em relação ao total de documentos relevantes existentes • Precisão • Mede o sucesso da filtragem: número de documentos relevantes recuperados em relação ao total de documentos recuperados • Cobertura: volume de informações disponíveis • Formato de saída • Tempo de resposta • Atualidade
Problemas de RI • Ausência Contexto • Problemas Lingüísticos • Necessidade de Intervenção Humana
Extração do Conhecimento • [Cabral & Siebra, 06] • Por definição, “A extração de conhecimento em bases de dados consiste na seleção e processamento de dados com a finalidade de identificar novos padrões, dar maior precisão em padrões conhecidos e modelar o mundo real. Data Mining, em português mineração de dados, refere-se ao exame de grandes quantidades de dados, procurando encontrar relações entre eles” [MICTHELL, 97].
Usuário Analista Usuário Necessidade Objetivos Preparação de Dados Mineração de Dados Interpretação Conhecimento Extração do Conhecimento • [Cabral & Siebra, 06] • Etapas do processo * Adaptado de [TERRA, 2000].
Mineração de Dados • Data Mining • “...é o processo de explorar grandes quantidades de dados à procura de padrões consistentes, como regras de associação ou seqüências temporais, para detectar relacionamentos sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.” [Wikipedia] • Aplica-se dados categóricos e numéricos. • Restrito a bases de dados relacionais e variações.
Mineração de Dados • Text Mining • “...refere-se ao processo de obtenção de informação de qualidade a partir de texto em linguagens naturais. É inspirado na mineração de dados, que consiste em extrair informações de bancos de dados estruturados; a mineração de texto extrai informação de dados não estruturados ou semi-estruturados.” [Wikipedia] • Aplica-se a textos. • Abrange textos em formato livre ou semi-estruturados.
Data Mining versus Text Mining • [Cabral & Siebra, 06] * Adaptado de [WOHL, 1998].
Abordagens e Áreas envolvidas • [Freitas, 07] • Computacional • Aprendizagem de máquina; • Lógica Fuzzy; • Estatística; • Recuperação da Informação. • Simbólica • Processamento de Linguagem Natural; • Raciocínio baseado em casos e simbólico • Ambas abordagens podem ser combinadas.
Abordagens da Mineração de TextoPrós e Contras • [Freitas, 07] • Computacional • Bom para maioria das tarefas; • De implementação rápida, baseada em aprendizagem; • Não recomendado para argumentação e dedução de informações. • Baseado em Conhecimento • Melhor no tratamento de contextos • Ontologias! • Combina melhor com técnicas PLN • Pergunta-Resposta • Análise e Argumentação Textual • Extração de Informação • Pouquíssimo utilizado na articulação de conceitos • Muitas aplicações combinam as duas abordagens! (Ex: KDT, IE from Texts)
KDT - Knowledge Discovery from Texts • Técnicas KDT • Extração de Informação • Categorização de textos • Análise das características • Análise lingüística • Sumarização de textos • Associação entre textos • Clustering (Agrupamento)
Ontologias • Definições • “Uma ontologia é um entendimento comum e compartilhado de algum domínio que pode ser comunicado entre pessoas e computadores” [STUDER et al., 1998]; • “Uma ontologia é uma representação de um domínio ou realidade. No caso de uma coleção de textos, a ontologia é uma representação dos temas, assuntos ou conceitos presentes nos textos” [LOH et al., 2004].
Vantagens • Discussões na área de Mineração de Textos é se um software poderá extrair automaticamente conhecimento a partir de uma coleção textual. • Experimentos realizados pelo Text Mining Research Group at the University of Waikato mostram que é possível automatizar partes do processo de descoberta, minimizando a dependência do usuário. • Entretanto é notório que algum tipo de intervenção humana é necessária e útil.
Tendências • Necessidade de integrar cada vez mais as abordagens de BD, HM e RI com ontologias • Busca de maior “semântica” associada às informações • Abordagens apresentam funcionalidades complementares • Fronteira entre o tipo de informação tratada por cada abordagem tende a desaparecer • Crescente necessidade de uso de Taxonomias e Ontologias
Aplicações de RI com Ontologias • OntoSeek • M&M • MASTER-Web • AGATHE* • KIM Platform • WSMO Studio ambiente para modelagem de SWS • OWLIM repositório semântico de escala industrial • Wsmo4j API e referências para construção de SWS • PROTON um pequeno construtor/editor de ontologias de propósito geral. • ORDI um framework para representação de ontologias e integração de dados via middleware.
OntoSeek • [Guarino et al., 99] • Desenvolvido para recuperar informações de páginas-amarelas e catálogo de produtos. • Ontologia na interface do usuário; • Trata ambiguidade, polisemia, sinonímia e relações parte todo usando WordNet [Miller, 95]
M&M • [Noy, 99] • M&M query system, por Natasha Noy. • Apresenta conceitos de RI como sistema de Pergunta-Resposta sobre o domínio de Microbiologia. • Capacidade de realização de vários tipos de inferências: generalização, especialização e parte-todo. • Performance muito boa.
Master-WEB • [Freitas & Bittencourt, 2003] • Multi-Agent System for Text Extraction, Retrieval and classification over the WEB. • Testes com ontologias de domínios diferentes, com resultados expressivos. • Sem grandes alterações no projeto.
KIM Platform • Plataforma de Gerenciamento de Informação e Conhecimento. • Indexa, Armazena, Recupera, Consulta, análise de linha de tempo das anotações semânticas.
Evolução: Recursos na Web • Futuro: Web Semântica • Não apenas informações e aplicativos, mas recursos em geral!
O que é Web Semântica? • É uma extensão da Web atual que visa dar significado semântico ao conteúdo das páginas Web, criando um ambiente onde agentes de software e usuários possam trabalhar de forma cooperativa [Tim Berners-Lee et al., 01]
Web Semântica: Visão da W3C • “A Web Semântica é uma visão: é a idéia de se ter dados na Web definidos e ligados de uma maneira tal que possam ser usados por máquinas não só com o objetivo de apresentação, mas para automação, integração e reuso de dados entre aplicações” [W3C]
XML e a Web Semântica • Convergência de diversas tendências • Uso de padrões • Busca de flexibilidade, conviver com heterogeneidade • Maior automatização • Melhoria dos mecanismos de busca • Melhoria dos descritores associados aos recursos • Maior suporte à integração de recursos • Serviços Web + Ontologias
Conclusões • A Recuperação da Informação sozinha apresenta alguns problemas não triviais de serem tratados. • A utilização de Mineração de Textos combinada com abordagens baseadas em conhecimento diminui o domínio de problemas apresentado em RI, além de aumentar a precisão dos resultados, obviamente dependendo da definição do contexto a ser analisado. • Uso de ontologias em sistemas de recuperação e mineração textual é comprovadamente benéfico, aumentando consideravelmente seus resultados. • Adição de semântica na web abre um leque com novas possibilidades de processamento de informações.
Referências • TERRA, J.C.C. Gestão do conhecimento: o empresarial. Grande desafio.São Paulo: Negócio Editora, 2000. • TEXT MINING RESEARCH GROUP AT THE UNIVERSITY OF WAIKATO. Text Mining. Disponível em: <http://www.cs.waikato.ac.nz/~nzdl/textmining/>. Acesso em: 30/09/2007. • MICTHELL, Tom. Machine Learning, McGraw Hill, 1997. • WOHL, Amy D. Intelligent Text Mining Creates Business Intelligence. IBM Business Intelligence Solutions CD. EUA: 1998. • STUDER, R. et al. Knowledge engineering: principles and methods. Data & Knowledge Engineering, v.25, n.1/2, 1998. • LOH, S. et al. Apoio à gestão de competências: Software para análise de conceitos. INTEXT: Porto Alegre, Dezembro, 2004. • CABRAL, Luciano & SIEBRA, Sandra. Identificação de Competências em Currículos usando Ontologias. Revista de Ciência , Tecnologia e Empreendedorismo, CETEC-FIR. v.1, n.1, Recife, 2006. • FREITAS, Fred. A quest for context: knowledge-based approaches for text mining. Lecture Notes, PPT, Marseille, 2007. • WIKIPEDIA. Wikipédia. A enciclopédia livre. <www.wikipedia.org>. • RIBEIRO-NETO, Berthier & BAEZA-YATES, Ricardo. Modern Information Retrieval. ACM Press. 1999. • W3C, World Wide Web Consortium, Semantic Web Activity Statement. <http://www.w3.org/2001/sw/Activity>. Acesso em: 30/09/2007. • GUARINO, N. ; Masolo, C. & Vetere, G. OntoSeek: Content-Based Access to the Web, IEEE Intelligent Systems, 14(3), 70--80, (May 1999). • KIRYAKOV, A.; POPOV, B.; TERZIEV, I.; MANOV, D. & OGNYANOFF , D. Semantic Annotation, Indexing, and RetrievalExtended and updated version of [KiryakovEtAl2003]. Elsevier's Journal of Web Semantics, Vol. 2, Issue (1), 2005. • POPOV, B.; KIRYAKOV, A.; OGNYANOFF, D.; MANOV, D. & KIRILOV, A. KIM - A Semantic Platform For Information Extraction and Retrieval.Journal of Natural Language Engineering, Vol. 10, Issue 3-4, Sep 2004, pp. 375-392, Cambridge University Press.