1 / 40

Determining Similarity and Inferring Relations in a Lexical Knowledge Base

Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997. Determining Similarity and Inferring Relations in a Lexical Knowledge Base. Apresentado por: Nuno Seco. Estrutura da Tese. Introdução Extracção de Relações Semânticas Atribuição de Pesos às Relações

Download Presentation

Determining Similarity and Inferring Relations in a Lexical Knowledge Base

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997 Determining Similarity and Inferring Relations in a Lexical Knowledge Base Apresentado por: Nuno Seco

  2. Estrutura da Tese • Introdução • Extracção de Relações Semânticas • Atribuição de Pesos às Relações • Quantificação de Semelhanças Semânticas • Inferência de Novas Relações • Conclusões

  3. Porquê?? Para que Serve?? Objectivos e Motivação • Criação de uma Base de Conhecimento Lexical (Ontologia Lexical, Rede Lexical, ...).

  4. Objectivos e Motivação • Aplicações: • Ferramentas de auxílio à escrita • Desambiguação • Sumarização • Recolha de Informação

  5. Abordagens • Duas estratégias seguidas na obtenção da Ontologia Lexical: • Manualmente: WordNet, Cyc, HowNet… • (Semi -) Automáticamente: MindNet

  6. Extracção de Relações Semânticas • Conversão de dicionários (LDOCE) para um formato mais formal. • MIND – MIcrosoft Natural Language Dictionary • Porquê dicionários? • Vocabulário fechado • Linguagem simples

  7. Extracção de Relações Semânticas • Exemplo: • fruit --- “an object that grows on a tree or bush, contains seeds, is used for food, but is not usually eaten with meat or with salt“.

  8. Extracção de Relações Semânticas(1 - Árvores Sintácticas)

  9. Extracção de Relações Semânticas(2 - Forma Lógica) • Tenta-se normalizar o texto, tratando de questões como: • Voz Passiva • ex: “eaten” • Anáfora

  10. Fruit Purp Food Extracção de Relações Semânticas • Utilização de heurísticas: • “If the head verb of phrase is use and it is post-modified by a prepositional phrase containing the preposition for, then create a Purpose relation between the word being defined and the object of for.”

  11. Extracção de Relações Semânticas(3 – Forma Semântica Relacional )

  12. Extracção de Relações Semânticas • São identificadas 16 tipos de relações a extrair, alguns exemplos são: • Causalidade • Hyperonímia • Sinonímia • Meronímia • Objecto_Típico_de • Sujeito_Típico_de

  13. Extracção de Relações Semânticas • Ponto da Situação: • Deriva-se as árvores sintácticas das definições. • Efectua-se um conjunto de transformações e obtém-se as representações lógicas. • Efectuam-se mais transformações e obtém-se a forma semântica relacional. • Permite a extracção de triplos (“SEMRELS”): • x1R x2 • Será que não se pode fazer mais?

  14. Extracção de Relações Semânticas • Serão estas as únicas relações que se conseguem extrair para “car” ?

  15. Extracção de Relações Semânticas • E as definições que contêm a palavra “car”?

  16. Extracção de Relações Semânticas • Através de um processo de inversão obtemos:

  17. Extracção de Relações Semânticas • LDOCE contém: • 33,000 entradas de substantivos • 12,000 entradas de verbos • Processo de extracção obteve: • 147,000 semrels (x1 R x2) • Processo de inversão produz: • 180,000 semrels • 78% das relações (com um erro de -/+ 5%) estão correctas

  18. Atribuição de Pesos às Relações • É importante quantificar a importância dos SEMRELS ou um “caminho” de SEMRELS entre duas palavras. Semrel: car --- Poss ---> people Caminho de Semrels: car --- Purp ---> carry --- Tobj ---> people

  19. Atribuição de Pesos às Relações • Formalizando um pouco mais: • SEMREL • w1Rw2 (car --- Purp ---> carry) • Caminho de SEMRELS • w1R1w2R2w3 (car --- Purp ---> carry --- Tobj ---> people) • w1R1w2…wnRn+1wn+1 • Partes do SEMREL • w1R1 • R1w2

  20. Atribuição de Pesos Utilizando tf.idf • Adaptação de métricas utilizadas em RI. Peso de w1Rw2 para entrada w1 • wik - peso do termo Tk do documento Di • tfik – frequencia Tk no documento Di • N – nº total de documentos (colecção) • nk – nº de documentos com Tk Frequência de _Rw2 na entrada w1 Nº de entradas na BCL Nº de entradas na BCL com _Rw2

  21. Atribuição de Pesos Utilizando tf.idf Quais são as partes mais importantes/salientes de um carro?

  22. Atribuição de Pesos Utilizando tf.idf • Alguns problemas com o tf.idf. • As palavras mais discriminatórias (w2) não representam a maior saliência cognitiva. • Não é uma métrica simétrica: • sc(w1Rw2) != sc(w2Rw1)

  23. Atribuição de Pesos Utilizando Informação Mútua • Informação Mútua (“Mutual Information”) P(x) – probabilidade de x ocorrer P(y) – probabilidade de y ocorrer P(x,y) – probabilidade de x e y co-ocorrerem

  24. P(x) P(y) P(x,y) Atribuição de Pesos Utilizando Informação Mútua • Fazendo a correspondência para o domínio do problema --- MI(w1Rw2): P(w1R) P(Rw2) P(w1Rw2)

  25. Atribuição de Pesos Utilizando Informação Mútua Quais são as partes mais importantes/salientes de um carro?

  26. Atribuição de Pesos Utilizando Informação Mútua • As frequências muito baixas dos SEMRELS podem ser a causa do problema. • Foram testadas algumas variações ao IM standard, mas sem sucesso.

  27. Atribuição de Pesos às Relações • Lei de Zipf: • Ordenando as palavras por ordem de frequência descendente (“rank”) e traçando a curva em relação à frequência da palavra obtém-se uma curva hiperbólica. • A posição classificativa (“rank”) de uma palavra vezes a sua frequência aproxima uma constante K.

  28. Atribuição de Pesos às Relações

  29. Atribuição de Pesos às Relações

  30. Atribuição de Pesos às Relações • Será a Lei de Zipf válida para as relações semânticas (SEMRELS)? • Existem muitos mais SEMRELS distintos do que palavras. • As frequências de cada SEMREL são bastante baixas. • Frequência de 90 é o máximo • Não existem palavras de função.

  31. Atribuição de Pesos às Relações • Para obter uma curva equivalente à de Zipf pode-se traçar uma curva que relaciona o número de SEMRELS com uma determinada frequência em relação à frequência.

  32. Atribuição de Pesos às Relações

  33. Atribuição de Pesos às Relações • Já sabemos como obter uma curva parecida com a de Zipf. • Mas o que interessa saber é quais as palavras que estão relacionadas por relações perto de vértice. • Para isso temos que traçar um gráfico para cada relação.

  34. Atribuição de Pesos às Relações Exemplo: Curva representando a frequência de SEMRELS do tipo TOBJ em relação ao número de SEMRELS com uma dada frequência.

  35. Função de Frequência “Verticial”

  36. Probabilidades “Verticiais” • Probabilidade de um SEMREL: • Probabilidade das partes do SEMREL:

  37. Probabilidade Estimada • Como as frequências de SEMRELS é baixa a validade das estatísticas pode estar comprometida. • Pode-se utilizar probabilidades estimadas (“Averaged Probabilities”).

  38. Probabilidade Estimada • Factores de Estimação:

  39. Atribuição de Pesos utilizando Probabilidades Estimadas

  40. Dissertação de Doutoramento de Stephen D. Richardson City University of New York 1997 Determining Similarity and Inferring Relations in a Lexical Knowledge Base Apresentado por: Nuno Seco

More Related