mapeamento de thesauri n.
Skip this Video
Loading SlideShow in 5 Seconds..
Mapeamento de Thesauri PowerPoint Presentation
Download Presentation
Mapeamento de Thesauri

play fullscreen
1 / 23
Download Presentation

Mapeamento de Thesauri - PowerPoint PPT Presentation

elpida
60 Views
Download Presentation

Mapeamento de Thesauri

- - - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

  1. Mapeamento de Thesauri Daniela F. Brauner

  2. Agenda • Introdução • Interoperabilidade • Mapeamentos • Em nível de esquema • Em nível de dados • Abordagens existentes • Abordagem proposta

  3. Introdução Interoperabilidade • Milhares de provedores de informação (fontes de dados): • Esquemas diferentes • Categorias diferentes para classificação dos dados (≠ thesauri) • Solução proposta: • Dados estruturados • Ontologias para descrever a semântica • Computadores capazes de “entender” estes dados • (mesma proposta da Web Semântica!) • ...e os problemas continuam: • Natureza descentralizada da Web • Cada provedor de informação usando sua própria ontologia

  4. Introdução Interoperabilidade • Busca por “city” no Swoogle • 722 resultadosi.e. definições diferentes

  5. Introdução Mapeamentos Find all cities called “Rio de Janeiro” GEOnet ADL Gazetteer

  6. Introdução Mapeamentos Find all cities called “Rio de Janeiro” Basic Architecture of A Data Integration System Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

  7. Schema-level mapping • Data-level mapping Introdução ? Mapeamentos ? ? ? Find all cities called “Rio de Janeiro” GEOnet ? ? ADL

  8. Abordagens existentes • ILA [Etzioni, 2000] • SEMINT [Syan et al., 2000] • AnchorPrompt [Musen and Noy, 2001] • Cupid [Madhavan et al., 2001] • LSD [Doan et al., 2001] • SimilarityFlooding [Melnik et al., 2002] • PROM [Doan et al., 2003] • GLUE [Doan et al., 2003] • CATO [Felicissimo, 2004] • iMAP [Dhamankar et al., 2004] • ...

  9. Utilizando os nomes dos termos Abordagens existentes ADL GEOnet Administrative area Populated places Political areas Countries Cities Capitals ... AREA area ADM1 first-order administrative divisionADM2 second-order administrative division ADM3 third-order administrative division ADM4 fourth-order administrative divisionADMD administrative division ADMF administrative facility PPL populated place PPLA seat of a first-order administrative division PPLC capital of a political entity PPLL populated locality PPLQ abandoned populated place PPLR religious populated place PPLS populated places PPLW destroyed populated place PPLX section of populated place... FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE: http://gnswww.nga.mil/geonames/GNS/index.jsp

  10. Utilizando as estruturas das árvores Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Country City Cities Countries Capitals CapitalCityOfRegion IndependentCountry FONTE: http://www.alexandria.ucsb.edu/gazetteer/FeatureTypes/ver070302/index.htm FONTE:http://www.cyc.com/cycdoc/vocab/geography-vocab.htmlhttp://opencyc1.cyc.com:3602/cgi-bin/cyccgi/cg?cb-start

  11. Abordagens existentes ADL OpenCyc Administrative area GeographicalAgent GeopoliticalEntity Populated places Political areas Country City Cities Countries Capitals IndependentCountry CapitalCityOfRegion Exemplos: ?

  12. Abordagens existentes • Estratégia de tradução do Google • Sistema “aprende” através de traduções existentes “My name is Daniela. I am 26 years old.” “Mein name ist Daniela. Ich bin 26 Jahre alt.” http://www.inf.puc-rio.br/~dani/en http://www.inf.puc-rio.br/~dani/de “Meu nome é Daniela. Eu tenho 26 anos.” “Mi nombre es Daniela. Yo tengo 26 años.” http://www.inf.puc-rio.br/~dani/br http://www.inf.puc-rio.br/~dani/es

  13. Abordagens existentes • 1799: Técnica aplicada por Jean-François Champollion na Pedra de Rosetta para decifrar os hieróglifos • hieróglifos egípcio demótico (Copta) grego http://www.thebritishmuseum.ac.uk

  14. ADL GEOnet Bay a coastal indentation between two capes or headlands, larger than a cove but smaller than a gulf Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land Abordagens existentes • Utilizando as descrições dos termos dos thesauri • Removemos algumas stop-words • Mapeamos conceitos com maior ocorrência de palavras em comum ?

  15. ADL GEOnet Bay Indentations of a coastline or shoreline enclosing a part of a body of water; body of water partly surrounded by land Peninsula an elongate area of land projecting into a body of water and nearly surrounded by water Abordagens existentes • Utilizando as descrições dos termos dos thesauri ≠ GEOnet (4) Peninsula: land, body, water, surrounded (3) Island: land, surrounded, water (2) Pool: body, water

  16. ADL GEOnet Waterfall perpendicular or very steep falls of water in the course of a stream. Waterfall a perpendicular or very steep descent of the water of a stream Abordagens existentes • Utilizando representação formal • Criamos 3 ontologias: ADL, GEO e concepts

  17. Abordagens existentes • Utilizando instâncias • Identificar mapeamentos entre os dados (instâncias iguais) • Verificar freqüência de “casamentos” entre os termos dos thesauri GEOnet ADL

  18. Etapas: • Levantamento dos dados • Definição dos conjuntos de treinamento e teste • Treinamento • Cruzamento das instâncias de treinamento (definir freqüências) • Cálculo das probabilidades de alinhamento • Teste e validação Abordagens existentes • Utilizando instâncias • Identificar mapeamentos entre os dados (instâncias iguais) • Verificar freqüência de “casamentos” entre os termos dos thesauri

  19. nab P( b | a ) = na Abordagens existentes Etapas concluídas: • Conjunto de exemplos: • Instâncias brasileiras: • ADL: 17.991 • GEOnet: 87.608 • Treinamento: • Instâncias mapeadas pelos valores de LAT/LON • 221 pares identificados (~16%) • Ex: • Termos dos thesauri: • ADL: 210 • GEOnet: 642 Combinações possíveis: 134.820

  20. Abordagem proposta • Mediador “espertinho” (utilizando técnicas de aprendizagem de máquina) • Aprende em 2 momentos: • A priori (offline) • A posteriori (runtime) • Aprende a partir de: • Consultas dos usuários • Análise das respostas das consultas dos usuários

  21. Ahááá!!! PPL ≡ PopulatedPlaces Abordagem proposta Aprendendo a partir das consultas dos usuários Select PPL From GEOnet Within“-54, -34 -52.5, -33” Select PPL From GEOnet Within“-54, -34 -52.5, -33” Select populated places From ADL Within“-54, -34 -52.5, -33” Select populated places From ADL Within“-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

  22. Cache Abordagem proposta Aprendendo a partir das respostas das consultas dos usuários Select PPL From GEOnet, ADL Within“-54, -34 -52.5, -33” Brainy Mediator Mediator GEOnet Wrapper ADL Wrapper GEOnet ADL Gazetteer

  23. Mapeamento de Thesauri Daniela F. Brauner