How to keep up with language dynamics
This presentation is the property of its rightful owner.
Sponsored Links
1 / 19

How to Keep up with Language Dynamics? PowerPoint PPT Presentation


  • 39 Views
  • Uploaded on
  • Presentation posted in: General

How to Keep up with Language Dynamics?. Plano de Tese 6 de Maio 2005. A case study on Named Entity Recognition. Cristina Mota Instituto Superior Técnico L2F Inesc-ID New York University. Supervisors Ralph Grishman, New York University Nuno Mamede, L2F Inesc-ID/IST. Objectivos.

Download Presentation

How to Keep up with Language Dynamics?

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


How to keep up with language dynamics

How to Keep up with Language Dynamics?

Plano de Tese

6 de Maio 2005

A case study on Named Entity Recognition

Cristina Mota

Instituto Superior Técnico

L2F Inesc-ID

New York University

Supervisors

Ralph Grishman, New York University

Nuno Mamede, L2F Inesc-ID/IST


Objectivos

Objectivos

Estudar a influência da evoluçãoda língua no desempenho dos sistemas de Processamento de Língua Natural (PLN)

Objecto de estudo: Textos jornalísticos portugueses

Actividade de PLN: Reconhecimento de Entidades Mencionadas (REM)

1 – Avaliar de que forma varia o desempenho de um sistema face a textos com referenciais temporais diferentes

2 – Propor métodos robustos que não só evitem a degradação no desempenho de um sistema, mas também o melhorem


Objectivos1

Objectivos

  • Estudar como é que as entidades mencionadas variam ao longo do tempo, bem como o contexto (sintáctico) em que estão inseridas

  • Identificar factores que localizem um texto temporalmente e que permitam comparar temporalmente dois textos

  • Identificar e caracterizar os módulos que o sistema deve ter, e a forma como devem estar organizados

     Conceber uma arquitectura genérica

  • Propor mecanismos que permitam melhorar e configurar de forma automática o sistema e recursos associados

     Encontrar métricas que permitam guiar a selecção de recursos apropriados à análise de um determinado texto (por exemplo, maior distância temporal que deve existir entre dois textos)

  • Construir um sistema tendo em conta estes factores


Objectivos2

Objectivos

  • Responder a questões como:

    • De que forma varia o desempenho face a alterações temporais dos textos?

    • Serão os corpora de um período de tempo adequados para aquisição de conhecimento (lexical, sintáctico, etc.) que será usado por sistemas que irão analisar textos de outro período de tempo?

    • Qual deverá ser a proximidade temporal entre os corpora de treino/desenvolvimento/teste e os textos a analisar?

    • Existirão elementos no texto (e.g., datas, eventos, advérbios…) que ajudem a caracterizar a referência temporal de um texto?

    • Será possível o sistema auto-adaptar-se a variações no tempo?


Motiva o g nese

Motivação [Génese]

“There were important differences in the makeup of these individual corporathataffected this analysis. The French corpus, for example, contained a wide range of articles from a single issue of Le Monde, so the topics of the articles ranged from world politics to the Paris fashion scene. The articles in the English and Spanish corpora were specifically selected (by the MUC-6 and MET evaluation organizers) because they contained references to press conferences. While the content was more homogeneous in the English corpus, the articles were nevertheless drawn from a range of several months of the Wall Street Journal, so the specific topics (and constituent Named Entities) were very diverse. The Chinese Xinhua corpus was, in contrast, extremely homogeneous. These differences demonstrate a number of difficulties presented by corpora in different languages.” (Palmer&Day, 1997)

“What such lexicons lack is a dymanic view of language; they are inevitably fossilised intuitions. To use a well known example: dictionaries od English normally tell you that the first, or main, sende of “television” is a technology or a TV set, although it is mainly used now to mean the medium itself. It is this kind of evidence that shows that, for tasks like IE, lexicons must be adapted or “tuned” to the texts being analysed which can led to a new, more creative wave in IE research: the need not just to use large textual and lexical resources, but to adapt them as automatically as possible, to enable them to adapt to new domains and corpora, which will mean dealing with obsolescenceand with the specialised vocabulary of a domain not encountered before.” (Gaizauskas&Wilks, 1997)


Motiva o porqu rem

Motivação [Porquê REM?]

O que é uma Entidade Mencionada?

PeTA contra J. Lo

Activistas da PeTA (uma associação de defesa dos direitos dos animais) protestam contra Jennifer Lopez em frente aos estúdios da MTV, na Times Square, em Nova Iorque. A PeTA está contra a utilização de peles nas colecções de moda da cantora.

(Edição Online do Público, 3 de Maio de 2005)

O que é Reconhecimento de Entidades Mencionadas?

PeTA contra J. Lo

Activistas da PeTA (uma associação de defesa dos direitos dos animais) protestam contra Jennifer Lopez em frente aos estúdios da MTV, na Times Square, em Nova Iorque. A PeTA está contra a utilização de peles nas colecções de moda da cantora.

(Edição Online do Público, 3 de Maio de 2005)

Identificação

Classificação

Co-referência


Motiva o porqu rem1

Motivação [Porquê REM?]

Porquê Reconhecimento de Entidades Mencionadas?

Do ponto de vista linguístico, apesar de serem objectos linguísticos muito diversificados, estão pouco estudadas, não havendo critérios que as permitam identificar nem classificar

  • Gramática (Mateus et al., 2003)

    • Define apenas antropónimos e topónimos

Entidade colectivas? Obras? Monumentos? ...

  • Quanto a propriedades linguísticas refere, por exemplo, que os topónimos podem ser precedidos por artigo definido (o Brasil, os Himalaias), embora haja muitas excepções para os nomes de países (*a Angola, *o Portugal), e nomes de cidades (*a Lisboa, *o Setúbal), os quais só aceitam se tiverem origem em nomes comuns (o Porto, a Figueira da Foz)

*a Vila Real; *as Chaves, *o Castelo Branco ?

o Estoril, a Nazaré ?


Motiva o porqu rem2

Motivação [Porquê REM?]

Porquê Reconhecimento de Entidades Mencionadas?

Do ponto de vista computacional, o processamento destas unidades levanta problemas diversos

  • Apenas os diminutivos dos antropónimos podem ser reconhecidos por analisadores morfológicos

  • Mesmo os que são reconhecidos recebem informações incorrectas (*Celeste/ADJ, *Ovar/V, *Chaves/N:fp)

  • São muitas vezes unidades lexicais multi-palavra (Mariana Rey Colaço, Vila Real de Santo António, Banco de Portugal)

  • - Muitos nomes estrangeiros aparecem em textos portugueses (Aix en Provence, Greenwich Village, Juan Carlos, Charles de Gaulle, Sun Microsystems, Credit Lyonnais)

  • - Podem incluir números e outros caracteres não-alfabéticos (Banco Totta & Açores, Boeing 747, Cine 222, PPD/PSD)


Motiva o porqu rem3

Motivação [Porquê REM?]

Porquê Reconhecimento de Entidades Mencionadas?

Do ponto de vista diacrónico, as EMs que ocorrem num texto dependem não só da altura em que foi escrito, mas também do período de tempo a que diz respeito

República Federal Alemã (RFA)

Alemanha vs.

República Democrática Alemã (RDA)

Bush

George W. Bush ?

George Bush ?

Durão Barroso

José Manuel Barroso


Motiva o pequena experi ncia

Motivação [Pequena experiência]

Parte01 do CETEMPublico (Rocha&Santos, 2000)


Motiva o aplica es

Motivação [Aplicações]

  • Sistemas de Pergunta&Resposta

    •  Greenwood&Gaizauskas (2003) melhoraram o desempenho de um sistema por terem integrado um módulo de REM

  • Sumarização

    •  Numa avaliação conjunta,Nobata et al. (2003) obtiveram os melhores resultados em termos de organização e coesão do texto


Expectativas

Expectativas

  • Contribuir para o desenvolvimento de sistemas de PLN mais robustos

    • Mostrando que o tempo também é um factor a considerar no desenho de sistemas e na concepção de recursos

    • Estabelecendo princípios de organização de sistemas e recursos que tenham em conta esse factor

  • Contribuir para um maior conhecimento linguístico sobre as EMs

    • Estabelecendo classes, definindo critérios de identificação e classificação

Desenvolver um sistema de REM (para o Português) com base nesses princípios

Produzir recursos linguísticos temporalmente organizados (almanaques, corpora anotados, léxicos subcategorizados) que possam ser integrados noutras aplicações de PLN


Plano

Plano

  • Definição e caracterização das classes de EMs a tratar

Classificação

Quantidade

Moeda

Individual

GrupoInd

Cargo

CargoInd

Membro

MembroInd

VALOR

PESSOA

OBRA

ORGANIZACAO

LOCAL

Administração

Empresa

Instituição

Sub

TEMPO

COISA

ABSTRACCAO

Correio

Administrativo

Geográfico

Virtual

Alargado

Hora

Período

Cíclico

Data

Morfologia


Plano1

Plano

  • Reutilização de um sistema de REM, integrando as novas definições

Módulo baseado em gramáticas que descrevem evidências internas e externas de acordo com a definição de (McDonald, 1996). Não usa almanaques, nem informações linguísticas. Desenvolvido no (e aplicado pelo) sistema INTEX (Silberztein, 1993).

STENCIL

Gramáticas que descrevem evidências internas e externas

Léxicos sub-categorizados

Ontologia?

Desenvolvido no (e aplicado pelo) sistema NooJ (Silberztein, 2003)


Plano2

Plano

  • Construção e anotação de um corpus de trabalho

  • Estudo das entidades mencionadas ao longo do tempo e identificação de conhecimento independente do tempo

  • Integração do novo conhecimento no classificador

  • Avaliação


Discuss o

Discussão

Qual a arquitectura de base?

Fará sentido condicionar à partida a arquitectura do sistema?

Com base em que critérios?

Será melhor observar e comparar o desempenho de outros sistemas?

Talvez pudesse usar os sistemas participantes no Harem...

Que etiquetas usar?

Trabalhar num sub-conjunto das etiquetas do Harem?

Definir em função dos corpora que tiver disponíveis?

Que corpora escolher? Como organizá-los?

O CETEMPublico vai de 1992 a 1998. Precisarei de um período mais alargado?

Apenas sobre a componente do tempo, ou também em relação ao domínio, sub-tópico, autor, ...?

Obter textos de outros jornais nacionais relativos ao mesmo período de tempo?


Discuss o1

Discussão

Como obter corpora anotados suficientemante alargados no tempo para que os resultados tenham significado?

Devia ter um corpus anotado independentemente?

Talvez o sistema vencedor do Harem pudesse anotar os meus corpora, de modo a que eu pudesse avaliar os resultados. Como garantir, nesse caso, que o sistema não vai ficar "biased" com esse sistema?

Que métodos aplicar?

O sistema deverá ser adaptativo, possuindo, por exemplo, mecanimos de auto-configuração que seleccionem os recursos adequados a um determinado texto. Ou não deverá depender de recursos?

Será possível criar um sistema de aprendizagem não supervisionado?

De modo a poder confirmar a minha hipótese, penso que tenho de comparar diferentes tipos de aprendizagem.

Como fazer a avaliação?

Avaliação em relação a um corpus de referência, nomeadamente a CD?

Avaliação comparativa com outros sistemas?


Crit rios de sucesso

Critérios de Sucesso

Verificação da hipótese!

Integração do sistema em aplicações mais complexas

Sistema de Legendagem de Notícias

Reutilização dos recursos por outros sistemas


Bibliografia

Bibliografia

  • Gaizauskas, R. and Y. Wilks, 1997. Information Extraction: Beyond Document Retrieval. Technical report CS-97-10, Department of Computer Science, University of Sheffield.

  • Greenwood, M. and R. Gaizauskas, 2003. "Using a Named Entity Tagger to Generalise Surface Matching Text Patterns for Question Answering", in Proceedings of the Natural Language Processing for Question Answering Workshop, EACL 03, Budapest.

  • Mateus, M. Helena, Ana Brito, Inês Duarte e Isabel Hub Faria (eds.), 2003. Gramática da Língua Portuguesa, 5ª Edição, Editorial Caminho, Lisboa.

  • McDonald, David D. "Internal and External Evidence in the Identification and Semantic Categorization of Proper Names", in Boguraev, Branimir & James Pustejowsky. Corpus Processing for Lexical Acquisition, 1996, The MIT Press, Cambridge, MA & London, England, pp. 21-39.

  • Nobata, Chikashi, Satoshi Sekine, Hitoshi Isahara & Ralph Grishman. (2002). "Summarization System Integrated with Named Entity Tagging and IE pattern Discovery", in Proceedings of the LREC 2002 Conference, (Las Palmas, 2002), pp. 1742-1745.

  • Palmer, David D. & David S. Day (1997). "A Statistical Profile of the Named Entity Task", in Proceedings of the Fifth ACL Conference for Applied Natural Language Processing (ANLP-97), (Washington D.C., 1997), pp. 190-193.

  • Paulo Rocha and Diana Santos. "CETEMPúblico: Um corpus de grandes dimensões de linguagem jornalística portuguesa", in Maria das Graças Volpe Nunes (ed.), Actas do V Encontro para o processamento computacional da língua portuguesa escrita e falada (PROPOR'2000) (Atibaia, São Paulo, Brasil, 19 a 22 de Novembro de 2000), pp. 131-140.

  • Shinyama, Y. nd S. Sekine (2004). Named Entity Discovery Using Comparable News Articles, Published in the Proceedings of the 20th International Conference on Computational Linguistics (COLING-04); 2004, Geneva, Switzerland.

  • Silberztein, M., 1993. Dictionnaires électroniques et analyse lexicale du français. Le système INTEX, Paris, Masson.

  • Wilks, Y., R. Catizone, 1999. Can We Make Information Extraction More Adaptive? In M. Pazienza (ed.) Proceedings of the SCIE99 Workshop. Springer-Verlag, Berlin. Rome.


  • Login