1 / 41

Extração da Informação

Extração da Informação. Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha. Índice. Motivação Introdução Processo de extração da informação Abordagens para um sistema de EI Desafios Conclusão. Motivação. Problema: Documentos na Web Web-service -> Banco de Dados.

misty
Download Presentation

Extração da Informação

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Extração da Informação Cirdes Borges, Flávio Dantas, Rafael Barbosa, Samuel Arcoverde, Tiago Rocha

  2. Índice • Motivação • Introdução • Processo de extração da informação • Abordagens para um sistema de EI • Desafios • Conclusão

  3. Motivação • Problema: • Documentos na Web • Web-service -> Banco de Dados

  4. Motivação • O que se quer? • Resposta aos usuários • Resumos de textos • Preencher Base de dados • Mineração de dados

  5. Introdução • O que é EI? • Identificar dados relevantes presentes nos documentos sem estruturação precisa. • Conversão para estruturas tabular • Exibição dos dados de forma legível

  6. Introdução Sistema de Extração de Informação Sistema de Extração de Informação

  7. Introdução EI Clusterização Classificação Segmentação Associação Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman founder Free Software Foundation Microsoft Corporation CEO Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft VP Richard Stallman founder Free Software Foundation Cluster A Cluster B Cluster C Alana Brito – Fernando Rodrigues – JosiasBarbosa 05/05/2010

  8. Introdução • História • JASPER (1980s) • Sistema para finanças • MUC-Message Understanding Conference [final da década de 80] • Internet/Web [década de 90]

  9. EI x Processamento de Linguagem Natural(PLN) • Processamentode LinguagemNatural • Completaanálisedos documentos • Complexidadealgorítmicaalta • Extraçãode Informação • Interesseempartesespecificas do texto • Menoresforçocomputacional Alana Brito – Fernando Rodrigues – JosiasBarbosa 05/05/2010

  10. Mineração na web

  11. Recuperação de informação x EI • Recuperação de Informação • Recuperação de documentos relevantes ao usuário baseando-se em cálculos estatísticos sobre os termos que ocorrem no documento. • Uso do conteúdo sintático dos documentos • Visualiza o documento apenas como um conjunto de palavras. • Extração de Informação • Extrai informações relevantes baseando-se no provável domínio de conhecimento do documento • Filtrar o resultado de uma tarefa de RI graças a restrição do domínio • Busca derivar conhecimento de documentos recuperados segundo a forma como o documento está estruturado e representado.

  12. Processo de extração de informação • Trata o problema de extração de dados relevantes a partir de uma coleção de documentos. • Os dados a serem extraídos são previamente definidos em um template (formulário) Tabelas com campos pré-definidos ou templates Criação Dos slots Documento com tags

  13. Processo de extração de informação

  14. Processo de extração de informação Extração individual Documento Reconhecimento de entidades AnáliseLéxica e Morfológica Análise de relacionamentos e contexto AnáliseSintática Integração Análisesemântica Inferência Informaçãoestruturada e contexto

  15. Abordagens para um Sistema de EI • Observamos nos sistemas de Extração de Informação a distinção entre duas abordagens: • Engenharia de conhecimento • Treinamento automático • As abordagens são diferenciadas pela forma com que as regras são definidas Alana Brito – Fernando Rodrigues – JosiasBarbosa 05/05/2010

  16. Engenharia de conhecimento Construção de regras é feita manualmente. Requer que um especialista em sistemas de Extração de Informação participe efetivamente da criação das regras. Construção baseada no conhecimento que o engenheiro possui do cenário e domínio com o qual vai se trabalhar. Precisão nos resultados é maior. O tempo de desenvolvimento é maior Alana Brito – Fernando Rodrigues – Josias Barbosa 05/05/2010

  17. Treinamento automático • Utiliza algoritmos de Inteligência Artificial • Algoritmo de treino • Uma quantidade de documentos é utilizada no treinamento e geração das regras • Treinamento do sistema para novos textos • Interação com o usuário pode ser feita • Aprende regras com a interação com o usuário • Tempo menor de desenvolvimento • Menor precisão nos resultados

  18. Abordagens para um Sistema de EI • Processamento de Linguagem Natural – PLN • Wrappers

  19. Processamento de Linguagem Natural - PLN • Utilizado no tratamento de documentos com pequeno ou nenhum grau de estruturação • Processamento de Língua Natural caracteriza-se pela análise e manipulação ou codificação de informações expressas em língua natural a fim de encontrar os dados relevantes a serem extraídos

  20. VisãoGeral • Nível Morfológico: estudo da constituição das palavras em elementos básicos; • Nível Sintático: determinação da relação (papel) de um conjunto de palavras em uma sentença; • Nível Semântico: determinação do significado e inter-relacionamento semântico das palavras; • Nível Discursivo: objetiva-se em determinar o significado de um conjunto de sentenças; • Nível Pragmático: Visa determinar o objetivo do uso da língua

  21. Nível Morfológico A análiseMorfológicadetermina: • O radical + sufixo da palavra, e geralmenteconstrói um dicionárioadicionandoinformaçõesrelacionadascomo: • Classe da palavra • Conjugação • Pessoa A análisemorfológicapodeserimplementadaatravés de algorítmosbaseadosemregras eatseat + sverbo,singular,3rd pers dogdog nome, singular

  22. Nível Sintático • A análise sintática faz uso do dicionário gerado pela análise morfológica procurando mostrar relacionamento entre palavras. • As palavras que apresentam apenas um sentido possível podem ser substituídas pela sua representação semântica • Tem como saída a representação da sentença que representa as dependências entre palavras • As sentenças de exemplo apenas diferem na sintáxi e apresentam significados diferentes ‘The dog chased the cat.’ ‘The cat chased the dog.’

  23. Nível Semântico • Não é apenas neste nível que o significado é determinado, todos os níveis contribuem para a determinação do significado • O nível semântico determina o possível significado de uma sentença, focando nas interações entre os significados das palavras na sentença • Desambigüidade semântica A cabeça une-se ao tronco pelo pescoço Ele é o cabeça da rebelião Sabrina tem boa cabeça

  24. Nível Discursivo • Analisatextosmaioresquesentenças • Focanaspropriedades do textocomo um todo, determinandosignificadoatravés das conexões de sentenças • Resolução de Anáfora: Substituição de pronomespelasentidadesqueelesreferenciam • Reconhecimento de Estrutura de Texto:Em um jornaltemos;Artigos de capa, opniões, eventospassados, anúcios

  25. Nível Pragmático • Foca no significadoquevaialém do contexto do texto • Requer um conhecimento global • Osexemplosseguintesutilizamanáforas mas as resoluçõesnecessitam de um conhecimento global Os vereadores recusaram receber os manifestantes, porque eles temiam o confronto Os vereadores recusaram receber os manifestantes, porque eles defendiam a revolução.

  26. Wrappers • Maior desenvolvimento da WEB nos anos 90. • Necessidade de sistemas mais eficientes com capacidade suficiente para extrair informação dos textos da WEB. • Extraem a informação de documentos e a exportam como parte de uma estrutura de dados.

  27. Wrappers • Textos são principalmente: • Estruturados: com formato predefinido e rígido. • Semi-estruturados: sem formatação rígida, permitem a ocorrência de variações na ordem dos dados. • Utilizam dados sobre a formatação do texto, marcadores, freqüência estatística das palavras, etc.

  28. Técnicas de Extração • Autômatos finitos • Casamento de padrões • Classificadores de texto • Modelos de Markov escondidos (HMM)

  29. Autômatos Finitos • Bons para textos estruturados. • Definidos manualmente ou aprendidos automaticamente. • Tipos: • Acceptors: com resposta sim ou não • Recognizers: um ou mais estados finais (categorização) • Transducers

  30. Casamento de Padrões • Textos estruturados, semi-estruturados e livres. • Padrões descritos através de expressões regulares (ER) que “casam” com o texto para extrair as informações. • ER mais intuitivas do que autômatos.

  31. Classificadores de Texto • Textos semi-estruturados • Documento é dividido em fragmentos, podendo utilizar várias características deles (tamanho, posição, formatação, presença de palavras) • Realiza classificação local independente para cada fragmento, perdendo informações estruturais importantes do documento

  32. Modelos de Markov Escondidos (HMM) • Textos livres e semi-estruturados. • Verifica a ocorrência de padrões em sequência no texto de entrada. • Assume-se que a probabilidade de se visitar um site depende do site que foi visitado anteriormente. • Maximiza a probabilidade de acerto para o conjunto todo de padrões.

  33. Construção de wrappers • Automática • Define regras de extração com um corpus de treinamento com de técnicas de aprendizagem de máquina. • Semi-automática • Auxiliado por ferramentas, o usuário especifica a estrutura e o contexto dos dados a serem extraídos. • Manual • Mais demorada e trabalhosa, porém com maior precisão nos dados extraídos.

  34. Desafios • Técnicas de Extração • “Dividir pra Conquistar” • Classes de conhecimento • Linguagem natural • Idiomas • Métricas de avaliação • Classificar stop words • Apredizagem

  35. Desafios • Ontologias • Acesso do Usuário • Conteúdo preciso, claro • Padrões Ontologia

  36. Aplicações de EI • Filtragem de Fóruns • Controle de Conteúdo • Assunto do Dialogo • Monitoramento da WEB • Buscar por Hackers • Busca por Terroristas

  37. Conclusões • Extrair Informação é preciso • WEB é um pandemônio de informações • Soluções inteligentes

  38. Dúvidas

  39. Referências • MANFREDINI, V. H.; Proposta de uma Técnica deExtração de Informação de Arquivos de Logde Servidores Proxy • Silva, E. F. A.; Barros, F. A.; Prudencio, R. B. C.; Uma Abordagem de Aprendizagem Híbrida para Extração de Informação em Textos Semi-Estruturados • http://en.wikipedia.org/wiki/Information_extraction • Liddy, E. D. In Encyclopedia of Library and Information Science, 2nd Ed. Marcel Decker, Inc http://www.cnlp.org/publications/03NLP.LIS.Encyclopedia.pdf

  40. Referências • Schneider O. M., Rosa, L.J., Processamento de Linguagem Natural (PLN), http://moschneider.tripod.com/pln.pdf • Aranha C., Passos E. A Tecnologia de Mineração de Textos, PUC-RIO • Bulegon H., Moro M. C. C., Text Mining and Natural Language Processing in Discharge Summaries, PPGTS,PUCPR • http://143.54.31.10/reic/edicoes/2003e2/tutoriais/MineracaoNaWeb.pdf

  41. Referências • www.cin.ufpe.br/~if796/2006-1/ExtracaoInformacao.ppt • http://sare.unianhanguera.edu.br/index.php/rcext/article/viewFile/413/409 • MELO, Taciana. Um Sistema Especialista para Extração e Classificação de Receitas Culinárias em Páginas Eletrônicas. Trabalho de Conclusão de Curso. UFPE, CIn. 2000. - www.cin.ufpe.br/~tg/2000-2/tmlm.doc

More Related