1 / 12

R3M

R3M. Uma participação minimalista no Segundo HAREM. Cristina Mota Linguateca. Encontro do Segundo HAREM Aveiro, 7 de Setembro de 2008. 1. Objectivo inicial. Classificação de PESSOA, ORGANIZACAO e LOCAL. Resultado final. Identificação de tudo excepto TEMPO e VALOR.

laurie
Download Presentation

R3M

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. R3M Uma participação minimalista no Segundo HAREM Cristina Mota Linguateca Encontro do Segundo HAREMAveiro, 7 de Setembro de 2008

  2. 1 Objectivo inicial Classificação de PESSOA, ORGANIZACAO e LOCAL Resultado final Identificação de tudo excepto TEMPO e VALOR Melhorar um sistema de REM baseado em aprendizagem semi-supervisionada 2 Dados etiquetados mínimos Treinar com poucos dados 3 Melhor é melhor que mais Porquê minimalista?

  3. Collins & Singer (1999) Sistema de Base Ideia inicial a melhorar baseada em Mota & Grishman (2008)

  4. NooJ (Silberztein, 2004) → JET (Grishman,1999-2006) Classificar P O L→ Classificar P O L e outro  → Módulo de selecção Collins & Singer (1999) Collins & Singer (1999) Sementes EM → Sementes EM + contexto Sistema R3M O que precisava de ser melhorado ou adaptado?

  5. Atomizador Segmentador de frases Consultador de dicionário Etiquetador morfo-sintáctico (HMM) Etiquetador de EM Analisador de grupos nominais Analisador sintáctico Analisador sintáctico estatístico Reconhecedor de padrões Resolvedor de referências Sistema R3M Ferramentas do JET – Java Extraction Toolkit

  6. Dicionários: Cargos (106) e formas de tratamento (59) disponibilizados pela organização do HAREM Palavras de ligação extraídas de um fragmento do CETEMPúblico (8112) dicionário de português integrado no NooJ (Barreiro, 2007) Palavras em maiúsculas da Colecção do Segundo HAREM (10050) Sistema R3M Recursos portugueses

  7. Padrões: Conjunto de padrões para delimitação de candidatos a EM Conjunto de padrões para identificação do contexto envolvente da EM Material de treino: Floresta sintáctica (Afonso et al., 2001), para treino de analisador morfo-sintáctico Colecções dourada e HAREM do Primeiro HAREM, para treino do classificador de EM Colecção dourada do Mini-HAREM, para teste do classificador de EM Sistema R3M Recursos portugueses

  8. Resultados

  9. Resultados

  10. Resultados

  11. Contrariamente à nossa posição no Primeiro HAREM, optámos por seguir as regras do jogo • Tirámos partido de ferramentas “genéricas” testadas em inglês , criando ou usando recursos portugueses • Usámos recursos mínimos • Obtivémos uma pontuação competitiva sem classificação • Anotação da CD do Primeiro HAREM não era 100% compatível com o Segundo HAREM • Teste e validação com programas de avaliação do Primeiro HAREM poderia ser enganador O que teria acontecido se o classificador e o Murphy não se tivessem encontrado? Comentáriosfinais

  12. A Linguateca e o HAREM são financiados através do contrato nº 339/1.3/C/NAC, financiado pelo governo português e pela União Europeia, e executado pela FCCN. Agradecimentos

More Related