1 / 18

A Statistical Profile of the Named Entity Task

A Statistical Profile of the Named Entity Task. David D. Palmer & David S. Day The MITRE Corporation. Por Cristina Mota.

zihna
Download Presentation

A Statistical Profile of the Named Entity Task

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. A Statistical Profile of the Named Entity Task David D. Palmer & David S. Day The MITRE Corporation Por Cristina Mota Palmer, David D. & David S. Day (1997). "A Statistical Profile of the Named Entity Task", in Proceedings of the Fifth ACL Conference for Applied Natural Language Processing (ANLP-97), (Washington D.C., 1997), pp. 190-193.

  2. Objectivos • Apresentar um perfil estatístico da tarefa de REM com base em corpora disponíveis para diversas línguas • Propor um algoritmo para estimar um limite inferior para REM • Discutir o significado das comparações entre línguas feitas com base nessa análise

  3. Caracterização de REM • Sub-tarefa de Extracção de Informação (EI) • Identificar e categorizar diferentes expressões em texto • ENAMEX, TIMEX, NUMEX (MUC-6) • Produzir informação útil para outras tarefas de EI (co-referencia e preenchimento de templates) • Avaliação feita com base em Abragência, Precisão e Medida-F

  4. Caracterização de REM • Desempenho humano elevado na ordem dos 96% [Sundheim, 1995] • No caso do inglês, desempenho dos sistemas próximo do humano em virtude de anos de investigação e avaliações conjuntas • Não é claro o que é que tem de ser adaptado para que os sistemas funcionem com outras línguas • Desconhece-se o desempenho dos melhores sistemas se as propriedades dos textos variarem (passarem a ter apenas um dos tipos de letras, não terem origem em notícias, etc.) • Pouca discussão quer sobre o significado linguístico da actividade de REM, quer sobre que quantidade de informação linguística é necessária para poder fazer essa avaliação

  5. Caracterização de REM Para qualquer actividade de PLN deve ser estabelecido uma medida de desempenho mínimo Estabelecem um sistema que analisa 6 corpora de diferentes línguas baseado apenas nas sequências de caracteres, sem recorrer a conhecimento linguístico específico da língua O desempenho desse sistema mínimo pode ser usado como ponto de partida para comparar com outros sistemas Definição da tarefa de REM de acordo com MUC-6 e MET

  6. Os corpora MET MUC-6 MET MET Constituição • Colecção de artigos de jornal • Nenhum artigo é a tradução de outro Muito homogéneo Comunicados de imprensa, MAS de várias edições mensais Grande variedade de artigos de uma única edição Comunicados de imprensa  Estas diferenças ilustram diversas dificuldades de análise nas diferentes línguas

  7. Os corpora Dimensão Línguas europeias: Token Sequência de caracteres delimitada por espaço A “capitalização” foi ignorada Japonês: Segmentador NEWJUMAN Chinês: Segmentador Universidade do Novo México

  8. Os corpora Entidades mencionadas [NUMEX and TIMEX] • Correspondem a 20-30% das EMs • Mais fáceis de reconhecer • Apenas 5 padrões foram suficientes para reconhecer praticamente todas as NUMEX • Com pequena lista de palavras que ocorrem em expressões temporais definiram, em poucas horas, cerca de 30 padrões (por língua) que reconhecem cerca de 95% das TIMEX  Tarefa simples, portanto passam a analisar apenas as ENAMEX, o que se veio a mostrar tarefa significativamente mais complexa

  9. Os corpora Entidades mencionadas [ENAMEX] • A ocorrência média é baixa (sobretudo quando comparada com a do vocabulário), o que indica que há muitos padrões pouco frequentes • Há muitas expressões que são muito frequentes Chinês: 2156 LOC, 20% China

  10. Os corpora Entidades mencionadas [ENAMEX] • Gráfico da percentagem acumulativa apresenta forma igual para todas as línguas, embora apresente uma taxa de crescimento diferente

  11. Os corpora Entidades mencionadas [ENAMEX] • De acordo com a Lei de Zipf • Uma percentagem significativa das expressões podem ser representadas por um pequeno conjunto de expressões muito frequentes • Na cauda da curva,uma percentagem não trivial é muito infrequente, podendo não ocorrer em mais nenhum corpus de treino

  12. Os corpora Entidades mencionadas [ENAMEX] • A proporção entre as 3 sub-categorias de ENAMEX varia muito entre línguas  As sub-categorias foram tratadas como equivalentes

  13. Treino e Ambiguidade Quão bom pode ser o desempenho se apenas memorizar as ENAMEX do corpus de treino? Taxa de transferência de vocabulário Percentagem das expressões que ocorrem no corpus de treino que também ocorrem no corpus de teste • Divisão aleatória dos corpora em corpora de treino e teste • Os corpora de teste ficam com cerca de 450 ENAMEX cada; as restantes constituem os corpora de teste • Contar as expressões que ocorrem no corpus de treino e ver quantas dessas ocorrem também no corpus de teste Em certa medida, construir uma lista a partir de um corpus de treino permite obter um desempenho razoável

  14. Treino e Ambiguidade

  15. Treino e Ambiguidade • A taxa de transferência de vocabulário para as palavras mais frequentes é elevada • MAS decresce rapidamente, deixando uma grande parte das expressões não cobertas pelos expressões do corpus de treino • Essas expressões “descobertas” não podem ser analisadas por memorização

  16. Treino e Ambiguidade Problemas de ambiguidade • Uma expressão pode ter mais do que uma categoria ou fazer parte de outra expressão maior • Uma sequência pode ser analisada tanto como uma expressão como uma não-expressão  Se isso acontecer, a precisão diminui • Esse tipo de erros não contabilizado

  17. Estimar o Limite Inferior • Qualquer sistema deve conseguir identificar uma grande percentagem de TIMEX e NUMEX (95%) • Relativamente a ENAMEX ((NNUMEX+NTIMEX)*α) + (NENAMEX*TENAMEX) α = 0.95 (resultante da experiência) Ncat = Percentagem the EMs representadas por categoria (Tab. 3) TENAMEX= Transferência de vocabulário para ENAMEX (Fig.2)

  18. Discussão • Os limites inferiores foram surpreendemente altos, indicando que com sistemas simples se consegue abrangência elevada para algumas línguas • A variação na gama de valores pode ser parcialmente atribuída às diferenças de construção dos corpora, o que ilustra as grandes diferencas de valor de classificação de um corpus para outro • Não é necessário conhecimento linguístico profundo para aumentar a classificação do sistema, bastará introduzir regras de contexto local • Avanços incrementais podem sem morosos e muito dependentes da língua • A análise mostrou haver muitas diferenças entre línguas para a tarefa de EN • Uma vez que os limites inferiores vão depender da língua e dos corpora, classificações idênticas podem não ser necessariamente comparáveis

More Related