A statistical profile of the named entity task
This presentation is the property of its rightful owner.
Sponsored Links
1 / 18

A Statistical Profile of the Named Entity Task PowerPoint PPT Presentation


  • 50 Views
  • Uploaded on
  • Presentation posted in: General

A Statistical Profile of the Named Entity Task. David D. Palmer & David S. Day The MITRE Corporation. Por Cristina Mota.

Download Presentation

A Statistical Profile of the Named Entity Task

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


A statistical profile of the named entity task

A Statistical Profile of the Named Entity Task

David D. Palmer & David S. Day

The MITRE Corporation

Por Cristina Mota

Palmer, David D. & David S. Day (1997). "A Statistical Profile of the Named Entity Task", in Proceedings of the Fifth ACL Conference for Applied Natural Language Processing (ANLP-97), (Washington D.C., 1997), pp. 190-193.


Objectivos

Objectivos

  • Apresentar um perfil estatístico da tarefa de REM com base em corpora disponíveis para diversas línguas

  • Propor um algoritmo para estimar um limite inferior para REM

  • Discutir o significado das comparações entre línguas feitas com base nessa análise


Caracteriza o de rem

Caracterização de REM

  • Sub-tarefa de Extracção de Informação (EI)

  • Identificar e categorizar diferentes expressões em texto

    • ENAMEX, TIMEX, NUMEX (MUC-6)

  • Produzir informação útil para outras tarefas de EI (co-referencia e preenchimento de templates)

  • Avaliação feita com base em Abragência, Precisão e Medida-F


Caracteriza o de rem1

Caracterização de REM

  • Desempenho humano elevado na ordem dos 96% [Sundheim, 1995]

  • No caso do inglês, desempenho dos sistemas próximo do humano em virtude de anos de investigação e avaliações conjuntas

  • Não é claro o que é que tem de ser adaptado para que os sistemas funcionem com outras línguas

  • Desconhece-se o desempenho dos melhores sistemas se as propriedades dos textos variarem (passarem a ter apenas um dos tipos de letras, não terem origem em notícias, etc.)

  • Pouca discussão quer sobre o significado linguístico da actividade de REM, quer sobre que quantidade de informação linguística é necessária para poder fazer essa avaliação


Caracteriza o de rem2

Caracterização de REM

Para qualquer actividade de PLN deve ser estabelecido uma medida de desempenho mínimo

Estabelecem um sistema que analisa 6 corpora de diferentes línguas baseado apenas nas sequências de caracteres, sem recorrer a conhecimento linguístico específico da língua

O desempenho desse sistema mínimo pode ser usado como ponto de partida para comparar com outros sistemas

Definição da tarefa de REM de acordo com MUC-6 e MET


Os corpora

Os corpora

MET

MUC-6

MET

MET

Constituição

  • Colecção de artigos de jornal

  • Nenhum artigo é a tradução de outro

Muito homogéneo

Comunicados de imprensa, MAS de várias edições mensais

Grande variedade de artigos de uma única edição

Comunicados de imprensa

 Estas diferenças ilustram diversas dificuldades de análise nas diferentes línguas


Os corpora1

Os corpora

Dimensão

Línguas europeias:

Token Sequência de caracteres delimitada por espaço

A “capitalização” foi ignorada

Japonês: Segmentador NEWJUMAN

Chinês: Segmentador Universidade do Novo México


Os corpora2

Os corpora

Entidades mencionadas [NUMEX and TIMEX]

  • Correspondem a 20-30% das EMs

  • Mais fáceis de reconhecer

  • Apenas 5 padrões foram suficientes para reconhecer praticamente todas as NUMEX

  • Com pequena lista de palavras que ocorrem em expressões temporais definiram, em poucas horas, cerca de 30 padrões (por língua) que reconhecem cerca de 95% das TIMEX

 Tarefa simples, portanto passam a analisar apenas as ENAMEX, o que se veio a mostrar tarefa significativamente mais complexa


Os corpora3

Os corpora

Entidades mencionadas [ENAMEX]

  • A ocorrência média é baixa (sobretudo quando comparada com a do vocabulário), o que indica que há muitos padrões pouco frequentes

  • Há muitas expressões que são muito frequentes

Chinês: 2156 LOC, 20% China


Os corpora4

Os corpora

Entidades mencionadas [ENAMEX]

  • Gráfico da percentagem acumulativa apresenta forma igual para todas as línguas, embora apresente uma taxa de crescimento diferente


Os corpora5

Os corpora

Entidades mencionadas [ENAMEX]

  • De acordo com a Lei de Zipf

    • Uma percentagem significativa das expressões podem ser representadas por um pequeno conjunto de expressões muito frequentes

    • Na cauda da curva,uma percentagem não trivial é muito infrequente, podendo não ocorrer em mais nenhum corpus de treino


Os corpora6

Os corpora

Entidades mencionadas [ENAMEX]

  • A proporção entre as 3 sub-categorias de ENAMEX varia muito entre línguas

 As sub-categorias foram tratadas como equivalentes


Treino e ambiguidade

Treino e Ambiguidade

Quão bom pode ser o desempenho se apenas memorizar as ENAMEX do corpus de treino?

Taxa de transferência de vocabulário Percentagem das expressões que ocorrem no corpus de treino que também ocorrem no corpus de teste

  • Divisão aleatória dos corpora em corpora de treino e teste

  • Os corpora de teste ficam com cerca de 450 ENAMEX cada; as restantes constituem os corpora de teste

  • Contar as expressões que ocorrem no corpus de treino e ver quantas dessas ocorrem também no corpus de teste

Em certa medida, construir uma lista a partir de um corpus de treino permite obter um desempenho razoável


Treino e ambiguidade1

Treino e Ambiguidade


Treino e ambiguidade2

Treino e Ambiguidade

  • A taxa de transferência de vocabulário para as palavras mais frequentes é elevada

  • MAS decresce rapidamente, deixando uma grande parte das expressões não cobertas pelos expressões do corpus de treino

  • Essas expressões “descobertas” não podem ser analisadas por memorização


Treino e ambiguidade3

Treino e Ambiguidade

Problemas de ambiguidade

  • Uma expressão pode ter mais do que uma categoria ou fazer parte de outra expressão maior

  • Uma sequência pode ser analisada tanto como uma expressão como uma não-expressão

 Se isso acontecer, a precisão diminui

  • Esse tipo de erros não contabilizado


Estimar o limite inferior

Estimar o Limite Inferior

  • Qualquer sistema deve conseguir identificar uma grande percentagem de TIMEX e NUMEX (95%)

  • Relativamente a ENAMEX

((NNUMEX+NTIMEX)*α) + (NENAMEX*TENAMEX)

α = 0.95 (resultante da experiência)

Ncat = Percentagem the EMs representadas por categoria (Tab. 3)

TENAMEX= Transferência de vocabulário para ENAMEX (Fig.2)


Discuss o

Discussão

  • Os limites inferiores foram surpreendemente altos, indicando que com sistemas simples se consegue abrangência elevada para algumas línguas

  • A variação na gama de valores pode ser parcialmente atribuída às diferenças de construção dos corpora, o que ilustra as grandes diferencas de valor de classificação de um corpus para outro

  • Não é necessário conhecimento linguístico profundo para aumentar a classificação do sistema, bastará introduzir regras de contexto local

  • Avanços incrementais podem sem morosos e muito dependentes da língua

  • A análise mostrou haver muitas diferenças entre línguas para a tarefa de EN

  • Uma vez que os limites inferiores vão depender da língua e dos corpora, classificações idênticas podem não ser necessariamente comparáveis


  • Login