1 / 17

O sistema CaGE e a participação no segundo HAREM

O sistema CaGE e a participação no segundo HAREM. Bruno Martins Instituto Superior Técnico, Technical University of Lisbon. Motivação. As referências geográficas e temporais ocorrem com abundância sobre documentos textuais (e.g., páginas Web, RSS feeds, …)

Download Presentation

O sistema CaGE e a participação no segundo HAREM

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. O sistema CaGE e a participação no segundo HAREM Bruno Martins Instituto Superior Técnico, Technical University of Lisbon

  2. Motivação • As referências geográficas e temporais ocorrem com abundância sobre documentos textuais (e.g., páginas Web, RSS feeds, …) • A extracção da informação geo-temporal (e.g., nomes de locais e nomes de períodos temporais) presente nos textos pode servir de suporte para serviços de indexação/pesquisa/navegação com base em critérios geo-temporais. • Ambiguidade é o maior problema: • Diferentes nomes para o mesmo local • Locais diferentes com o mesmo nome • Mesmo nome para locais e outras entidades • Variações ao longo do tempo e do espaço • O sistema CaGE aborda o problema do reconhecimento e desambiguação de referências geo-temporais • Associar as referências presentes nos textos a entradas num almanaque

  3. Resumo da apresentação • Motivação • Apresentação do sistema CaGE • Especificidades das referências geo-temporais • Um serviço Web com base no sistema CaGE • Participação no HAREM 2 e resultados obtidos • Conclusões e trabalho futuro

  4. Apresentação do sistema CaGE • Reconhecimento de entidades mencionadas com base em dicionários (i.e., almanaques) e regras • Extensão para desambiguação de nomes de locais e nomes de períodos temporais, com base em heurísticas e um almanaque específico desenvolvido no projecto DIGMAP • Extensão para atribuição de âmbitos geográficos a documentos, com base nos locais reconhecidos no texto Não necessita dados de treino (apenas dicionários específicos), fácil de adaptar a outras línguas e tarefas de reconhecimento.

  5. Dicionários usados pelo sistema CaGE • Nomes de pessoas, organizações e periodos temporais • Base de dados REPENTINO (REPositório para reconhecimento de ENtidades NOmeadas) • Internet Movie DataBase • Wikipedia (e.g., listas de períodos temporais e de nomes comuns) • ECAI TimePeriod directory (traduções para Português) • Dicionários distribuídos com o sistema de IE/REM Balie • Nomes de locais • GeoNET (combinação do GeoNET-PT e ML) • Base de dados disponibilizada pelo www.geonames.org • Nomes no almanaque do projecto DIGMAP • Lista de excepções construída manualmente

  6. Funcionamento do CaGE • Reconhecimento de entidades mencionadas • Atomização dos textos • Janela deslizante sobre os átomos identificados no texto (até 6 palavras) • EMs começam com maiúsculas enão ocorrem apenas no início de frases. • Mapeamento da EM máxima com entidades presentes nos dicionários • Expressões regulares para algumas entidades temporais (e.g., datas) • Ambiguidade entre vários tipos de entidades • Regras desenvolvidas manualmente, utilizando palavras adjacentes • Classificação round-robinentre os vários tipos possíveis • Tratamento das entidades geográficas e temporais • Desambiguação e “grounding” com base em almanaque específico

  7. O almanaque usado na desambiguação das referências geo-temporais • Base de dados de locais e períodos temporais • Nomes, coordenadas, períodos, relações e outras informações • Pode ser acedido por um serviço Web XML (interface ADL) • Integra dados de múltiplas fontes (e.g. geonames.org) • http://gaz.digmap.eu/

  8. Específicidades das referências geográficas e temporais • Desambiguação e grounding das referências a locais • Pesquisar no almanaque os locais com o mesmo nome e tipo • Ordenar possibilidades com base na heurística “um sentido por defeito” • Locais mais gerais (e.g., países e continentes) têm preferência • Ajustes com base na heurística “referências relacionadas” • Locais no mesmo documento estão semanticamente relacionados (e.g., parte-de) • Desambiguação e grouding das referências temporais • Regras para converter as representações textuais das datas • Pesquisar no almanaque os nomes de períodos temporais • Atribuição de âmbitos aos documentos • Entrada no almanaque que melhor combina os locais reconhecidos • Intervalo de tempo que cobre os vários intervalos reconhecidos no texto

  9. Atribuição de âmbitos geográficos (weightx*0.752)+(weighty*0.752) • Algoritmo simples que explora as relações hierárquicas (Amitay et al., 2005) • Pesos iniciaiscorrespondentes às ocorrências no texto são propagados através das relações hierárquicas definidas entre as entradas do almanaque • Função quadrática para ajustar os pesos de acordo com o nível hierárquico Europa (weightx*0.75)+(weighty*0.75) Espanha Portugal Madrid Barcelona Lisboa Porto weightx weighty

  10. Um serviço Web baseado no CaGE • Serviço Web XML online em http://geoparser.digmap.eu • Serviço segue a OGC’s Geoparser draft implementation specification • Suporta ainda os formatos HAREM, geoRSS and SpatialML (com XSLTs) • Interface para exploração de feeds RSS com TimeLines+Mapas • Locais e períodos temporais ligados a entradas no almanaque • Nomes de locais e âmbitos dos documentos associados a coordenadas • Períodos temporais e âmbitos temporais associados a intervalos de tempo

  11. Participação no segundo HAREM • Quatro runs submetidas ao segundo HAREM • Vários dicionários, locais no almanaque específico • Apenas os locais presentes no almanaque usado na desambiguação e grounding foram anotados pelo sistema • Vários dicionários, excepto lista de excepções • Apenas dicionários de locais e períodos temporais • Não eram reconhecidos os restantes tipos de entidades • Vários dicionários

  12. Resultados experimentais • Resultados obtidos no primeiro HAREM • Versão anterior do sistema CaGE lidando apenas com reconhecimento de locais • Dicionários baseados apenas no GeoNET • Resultados obtidos no HAREM2, cenário 2 • Considera vários tipos de entidades (i.e., locais, tempo, organizações e pessoas) e sub-tipos para as entidades do tipo local • Resultados obtidos no HAREM2, cenário 5 • Considera apenas entidades do tipo local, excepto o sub-tipo VIRTUAL • Experiências focando na atribuição de âmbitos • Experiências com 511 documentos (i.e., registos bibliográficos do projecto DIGMAP) manualmente atribuídos a âmbitos geográficos e temporais

  13. Resultados no primeiro HAREM • Participação num cenário limitado à identificação de entidades do tipo local • Semelhante ao cenário selectivo 5 do segundo HAREM • Resultados modestos obtidos no HAREM e no MiniHAREM, com uma diferença de cerca de 0.1 em termos da medida-F para com o melhor sistema participante

  14. Resultados no cenário selectivo 2 Diferença de aprox. 0.2 em termos da medida-F para com o melhor resultado

  15. Resultados no cenário selectivo 5 Diferença de aprox. 0.1 na medida-F para o melhor resultado Diferença de aprox. 0.1 na medida-F em relação ao MiniHAREM Resultados ligueiramente melhores que no cenário selectivo 2

  16. Resultados na atribuição de âmbitos • Documentos na colecção de teste manualmente atribuídos a uma caixa delimitadora • Medir a diferença entre os âmbitos geográficos atribuídos manual- e automaticamente • A baseline 1 corresponde ao âmbito mais frequente e baseline 2 à área mais abrangente • Âmbitos geográficos atribuídos a mais de 75% dos documentos, e em mais de 50% dos casos com um erro inferior a 25Km

  17. Conclusões e Trabalho Futuro O sistema CaGE e a participação no segundo HAREM • Reconhecer referências geo-temporais em documentos textuais. • Atribuir âmbitos aos documentos com base nas referências. • Disponível como um serviço Web produzindo anotações XML. • Resultados modestos no segundo HAREM. Trabalho futuro • Melhorar precisão e abrangência do sistema • Almanaques já têm uma boa cobertura, o foco deve estar em regras. • Melhor avaliação da atribuição de âmbitos a documentos. • Melhorar tratamento de referências temporais (TimeML).

More Related