Recupera o de informa o cl ssica
This presentation is the property of its rightful owner.
Sponsored Links
1 / 48

Recuperação de Informação Clássica PowerPoint PPT Presentation


  • 52 Views
  • Uploaded on
  • Presentation posted in: General

Recuperação de Informação Clássica. Tipos de Consultas & Operações sobre Consultas Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999]. Fases e Etapas de um Sistemas de RI. Etapas da Fase 1 - Criação da Base de índices Aquisição (seleção) dos documentos Preparação dos documentos

Download Presentation

Recuperação de Informação Clássica

An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -

Presentation Transcript


Recupera o de informa o cl ssica

Recuperação de Informação Clássica

Tipos de Consultas &

Operações sobre Consultas

Caps. 4 e 5 do livro [Baeza-Yates & Ribeiro-Neto 1999]

Flávia Barros

CIn-UFPE


Fases e etapas de um sistemas de ri

Fases e Etapas de um Sistemas de RI

  • Etapas da Fase 1 - Criação da Base de índices

  • Aquisição (seleção) dos documentos

  • Preparação dos documentos

    • Criação da representação dos documentos

  • Indexação dos documentos

    • Criação da base de índices invertidos

  • Etapas da Fase 2 - Consulta à Base de índices

    • Construção da consulta (query)

    • Busca (casamento com a consulta do usuário)

    • Ordenação dos documentos recuperados

    • Apresentação dos resultados

    • Feedback de relevância


  • Roteiro

    Roteiro

    • Tipos de consultas

    • Operações sobre consultas

      • Expansão de consultas

      • Reformulação de consultas

        • Feedback de relevância

    CIn-UFPE


    Tipos de consultas

    Tipos de Consultas

    • Existem diversos tipos de consultas que podem ser submetidas aos sistemas de RI

    • Contudo...

      • Nem todos os tipos podem ser usados em todos os sistemas

      • Isso vai depender do modelo de RI adotado pelo sistema


    Tipos de consultas1

    Tipos de Consultas

    • Consultas baseadas em Palavras-Chaves

      • Baseadas em palavras isoladas

      • Com contexto

      • Booleanas

      • Em Linguagem Natural

    • Com casamento de Padrão

    • Com estrutura


    Consultas baseadas em palavras chave

    Consultas baseadas em Palavras-chave

    • Tipos

      • Baseadas em palavras isoladas

      • Com contexto

      • Booleanas

      • Em Linguagem Natural

    • Permitem ordenamento das respostas

      • segundo a função de relevância do modelo de RI adotado

      • Segundo algum outro critério adicional


    Consulta baseada em palavras chave isoladas

    Consulta baseada em Palavras-chave isoladas

    • SingleKeyword query

      • Tipo mais simples de consulta a um sistema de RI

      • Consiste em uma lista de palavras

        • Sem operadores booleanos explícitos

        • Porém funciona como ‘OR’

    • Funcionamento geral

      • O sistema de RI recupera todos os documentos que contêm pelo menos uma das palavras da consulta

      • Em seguida, os documentos recuperados são ordenados de acordo com o modelo de RI implementado pelo sistema


    Consultas com contexto consideram a posi o das palavras

    Consultas com ContextoConsideram a posição das Palavras

    • Alguns sistemas de RI são capazes de buscar palavras dentro de algum “contexto”

      • Documentos onde as palavras da consulta aparecem próximas uma da outra podem ser mais relevantes do que aqueles onde as palavras aparecem distantes

        • Ex.: “recuperação” e “informação” no contexto de docs. sobre o tema de Recuperação de Informação

    • A consulta também é formulada como uma lista de palavras

      • Contudo, a ordenação dos documentos depende da posição das palavras nesses documentos


    Consultas com contexto posi o das palavras

    Consultas com ContextoPosição das Palavras

    • Como verificar essa proximidade?

      • Depende da implementação do sistema de RI

        • E.g., Bases de índices invertidos que guardam a posição onde cada palavra ocorre em cada documento


    Consultas com contexto grupos nominais

    Consultas com Contexto Grupos Nominais

    • Consultas baseadas em Grupos Nominais (GN)

      • recuperam documentos com um GN específico

        • i.e., lista de palavras contíguas no texto do documento

        • ex., “inteligência artificial”

    • Pode levar em consideração stopwords e/ou stemming

      • Exemplo - “venda carro” casa com

        • “venda de carros”

        • “vendendo carro”,…


    Consultas com contexto grupos nominais1

    Consultas com Contexto Grupos Nominais

    • A Base de índices do sistema de RI deve armazenar as posições de cada palavra no documento

    • Processo de recuperação

      • Recuperar os documentos que contêm todas as palavras da consulta

        • Registrando as posições de cada palavra nos docs

      • Fazer a intersecção entre documentos recuperados

        • Para eliminar redundâncias

      • Verificar a ocorrência do GN (palavras contíguas)


    Consultas com contexto dist ncia m xima permitida

    Consultas com Contexto Distância máxima permitida

    • Consulta semelhante a GN, porém

      • considera a distância máxima permitida entre os termos da consulta

      • Exemplo: “carro; corrida; 2”

      • Consulta com os termos “carro” e “corrida” com distância máxima de 2 palavras entre esses termos

        • Exemplo de doc: “…carro que ganhou a corrida…”

    • As palavras não precisam estar na mesma ordem em que foram definidas na consulta

      • Exemplo: “…corrida terminou com carro…”

    • Pode também levar em conta stemming e/ou stopwords


    Consultas com contexto ordena o dos documentos

    Consultas com ContextoOrdenação dos Documentos

    • Documentos que satisfazem uma consulta com Contexto podem ser ordenados da mesma forma que no caso das consultas básicas

      • i.e., de acordo com o modelo de RI implementado pelo sistema

    • Para consultas que levam em conta a posição das palavras, a distância entre os termos também pode ser levada em conta para definir a relevância do documento

      • Ex.: documento com o texto “…corrida de carro…” seria mais relevante que documento com texto “…carro que ganhou a corrida…”


    Consultas booleanas

    Consultas Booleanas

    • Palavras combinadas com operadores booleanos:

      • OR: (ki OR kj )

      • AND: (ki AND kj )

      • BUT: (ki BUT kj )

        • Satisfaz ki but notkj

    • Em geral, sistemas de RI não usam o operador NOT

      • Uma vez que um número muito grande de documentos poderia ser recuperado

      • Operador BUT restringe o universo de documentos

    • Problema

      • Usuários inexperientes têm dificuldades com lógica booleana


    Consultas booleanas recupera o com ndices invertidos

    Consultas BooleanasRecuperação com índices invertidos

    • Palavra isolada

      • Recupera documentos contendo essa palavra

    • OR

      • Recupera docs. com ki e kj , e faz a união dos resultados

    • AND

      • Recupera docs. com ki e kj , e faz a interseção dos resultados

    • BUT

      • Recupera docs. com ki e kj , e utiliza o conjunto complementar dos resultados


    Consultas em linguagem natural

    Consultas em Linguagem Natural

    • Em geral, consultas de texto completo são consideradas como strings arbitrárias pelos sistemas de RI de propósito geral

      • Excluímos aqui os sistemas de Pergunta-Resposta, e os sistema de RI com interface em Linguagem Natural

    • No modelo Espaço Vetorial, essas consultas

      • São tratadas como um “bag” de palavras

      • São processadas usando métodos padrão de recuperação com Espaço Vetorial


    Casamento de padr o

    Casamento de Padrão

    • Alguns sistemas de RI permitem consultas que “casam” com strings

      • em lugar de apenas palavras isoladas

    • Um padrão é descrito por um conjunto de características sintáticas

      • Padrão simples

        • ex., uma palavra, um prefixo, um sufixo, etc

      • Padrão complexo

        • ex., expressões regulares


    Casamento de padr o1

    Casamento de Padrão

    • Estamos interessados em documentos que contêm segmentos de texto que casam com o padrão especificado

    • Isso requer estruturas de dados e algoritmos mais sofisticados do que índices invertidos para uma recuperação eficiente


    Casamento de padr o padr es simples

    Casamento de PadrãoPadrões Simples

    • Prefixos

      • Padrão que casa com o início da palavra

      • “anti” casa com “antiguidade”, “anticorpos”, etc.

    • Sufixos

      • Padrão que casa com o final da palavra

      • “ções” casa com “canções”, “infecções”, etc.

    • Substrings

      • Padrão que casa seqüências quaisquer de caracteres

      • “cid” casa com “capacidade”, “genocídio” etc.

    • Intervalos

      • Pares de strings que casam com qualquer palavra “alfabeticamente” entre eles

      • “tin” to “tix” casa com “tipo”, “tiro”, “tísico”, etc.


    Casamento de padr es simples tratamento de erros

    Casamento de Padrões Simples Tratamento de Erros

    • Permite a recuperação de documentos com palavras “similares” a uma dada palavra

      • Caso de consulta ou documentos com erros

        • Erros de edição, erros de OCR, espaço no meio da palavra, dentre outros

    • Recupera documentos que são similares até um dado limite, medido por

      • Distância de edição

        • Levenstein distance

      • Subseqüência comum mais longa

        • Longest Common Subsequence (LCS)


    Casamento de padr es simples tratamento de erros1

    Casamento de Padrões Simples Tratamento de Erros

    • Distância de edição - Levenstein distance

      • Número mínimo de caracteres deletados, adicionados ou substituídos necessários para tornar os 2 strings equivalentes

        • “casamento” para “casmento” tem distância = 1

        • “casamento” para “casammentto” tem distância = 2

        • “casamento” para “cazammeno” tem distância = 3


    Casamento de padr es simples tratamento de erros2

    Casamento de Padrões Simples Tratamento de Erros

    • Subseqüência comum mais longa

      • Computa o tamanho da subseqüência de caracteres mais longa comum aos dois strings

      • Uma subseqüência de um string é obtida pela eliminação de zero ou mais caracteres

      • Exemplos:

        • “casamento” e “asamento” = 8

        • “casamento” e “casammentto” = 5


    Casamento de padr es complexos express es regulares

    Casamento de Padrões Complexos Expressões Regulares

    • Linguagem para compor padrões complexos a partir de padrões simples

      • Um caractere individual é uma expressão regular (ER)

      • União

        • Se e1 e e2 são ERs, então (e1 | e2 ) é uma ER que casa com tudo que e1 ou e2 casam

      • Concatenação

        • Se e1 e e2 são ERs, então e1 e2 é uma ER que casa com um string que consiste em um substring que casa com e1 imediatamente seguido de um substring que casa e2

      • Repetição (Kleene closure):

        • Se e1 é uma ER, então e1* é uma ER que casa com uma seqüência de zero ou mais strings que casam com e1


    Casamento de padr es complexos express es regulares1

    Casamento de Padrões Complexos Expressões Regulares

    • Exemplos de Expressões Regulares

      • (u|e)nabl(e|ing) casa com

        • unable

        • unabling

        • enable

        • Enabling

      • (un|en)*able casa com

        • able

        • unable

        • unenable

        • enununenable


    Consultas com estrutura

    Consultas com Estrutura

    • Assumem que o documento possui uma estrutura que pode ser explora na busca

      • Estruturas hierárquicas em forma de árvore

      • Conjunto fixo de campos (meta-dados)

        • e.g. título, autor, resumo, etc.

    • Permitem consultas por textos que ocorrem em campos específicos:

      • “inteligência artificial”

      • aparecendo no título do capítulo

    livro

    capítulo

    capítulo

    título

    seção

    título

    seção

    título

    subseção


    Opera es sobre as consultas

    Operações sobre as Consultas

    • Expansão de Consultas

    • Reformulação de consultas

      • Feedback de Relevância


    Expans o de consultas

    Expansão de Consultas

    • Objetivo:

      • Adicionar novos termos (correlacionados) à consulta

    • Motivação

      • Aumentar a quantidade de documentos recuperados

        • Cobertura do sistema de RI


    Expans o de consultas usando tesauros

    Expansão de consultas usando Tesauros

    • Para cada termo t da consulta, expande a consulta com os sinônimos e palavras relacionadas a t contidos no tesauro

    • Esse método geralmente aumenta acobertura da recuperação

      • Recupera mais documentos

    • Porém, pode diminuir significativamente a precisão

      • Recuperar documentos irrelevantes

      • Particularmente para termos ambíguos


    Expans o de consulta com wordnet

    Expansão de Consulta com WordNet

    • WordNet

      • http://wordnet.princeton.edu/

  • Adiciona sinônimos no mesmo synset

    • Adiciona hipônimos para inserir termos especializados

    • Adiciona hiperônimos para generalizar uma consulta

    • Adiciona outros termos relacionados para expandir a consulta


  • Expans o com tesauro estat stico an lise autom tica global

    Expansão com Tesauro Estatístico Análise Automática Global

    • Tesauros produzidos manualmente

      • são limitados no tipo de relações semânticas que representam

    • Termos semanticamente relacionados podem ser descobertos a partir de análises estatísticas em um corpus de documentos


    An lise autom tica global

    Análise Automática Global

    • Constrói matrizes que “quantificam” associações entre termos

      • Matriz de associação

        • Considera a co-ocorrência (ou freqüência comum) dos termos em todos os documentos do corpus

      • Matriz de correlação métrica

        • considera a distância entre os termos nos documentos do corpus

        • as distâncias entre todas as ocorrências desses termos no mesmo documento são contadas, o que indiretamente quantifica a co-ocorrência dos termos

    • Expande consultas usando os termos mais similares estatisticamente

      • i.e., com maior associação


    An lise autom tica global1

    Análise Automática Global

    • Ocultei os slides do cálculo das matrizes de associação e de correlação métrica...


    An lise autom tica global expans o da consulta

    Análise Automática Global Expansão da Consulta

    • Regra Geral

      • Para cada termo i da consulta, expanda a consulta com os n termos j com maior valor de cij (correlação)

    • Mais de um fator de correlação pode ser combinado para escolher os termos para a expansão

      • Por exemplo, pegar os n maiores termos de ambas as matrizes e fazer a interseção

        • determinando que termos estão relacionados em ambas as matrizes


    Expans o da consulta problemas com a an lise global

    Expansão da ConsultaProblemas com a Análise Global

    • Ambigüidade

      • pode introduzir termos estatisticamente relacionados que, mesmo assim, são irrelevantes para a consulta

        • “Apple computer”  “Apple red fruit computer”

        • apple e red fruit estão relacionados no corpus de docs.

        • Porém, red fruit não é relevante para a consulta original

    • Redundância

      • Uma vez que os termos adicionados são correlacionados aos termos da consulta original, a expansão pode não recuperar muitos documentos adicionais


    Expans o da consulta an lise autom tica local

    Expansão da ConsultaAnálise Automática Local

    • Após a consulta inicial, determina termos correlacionados analisando os m primeiros documentos recuperados

      • i.e., de melhor ranking

    • Esta análise se baseia apenas em um conjunto “local” de documentos específico para uma consulta

    • Evita ambigüidade, uma vez que considera apenas documentos relevantes em um contexto

      • “Apple computer”  “Apple computer Powerbook laptop”


    An lise global vs an lise local

    Análise Global vs. Análise Local

    • Análise Global

      • requer computação intensiva off-line

        • durante a construção da matriz de correlações entre termos

    • Análise Local

      • Requer menos computação para cálculo das correlações

      • Entretanto, esse cálculo é refeito para cada consulta em tempo de execução

    • Análise local tem gerado melhores resultados experimentais


    Expans o de consultas conclus es

    Expansão de Consultas Conclusões

    • Expansão de consultas com termos relacionados pode melhorar desempenho do sistema de RI

      • Particularmente, a cobertura

    • Contudo, termos similares devem ser escolhidos com cuidado para evitar perda de precisão


    Reformula o da consulta feedback de relev ncia

    Reformulação da consultaFeedback de relevância

    • Após apresentar os resultados de uma consulta, o sistema de RI pode permitir ao usuário fornecer feedback sobre um ou mais documentos recuperados

    • Esse feedback pode ser usado para reformular a consulta inicial

      • Novos resultados serão produzidos com base na consulta reformulada

      • Processo é interativo e iterativo


    Arquitetura para feedback de relev ncia

    Consultainicial

    Consulta revisada

    Documentos

    reordenados

    1. Doc1

    2. Doc2

    3. Doc3

    .

    .

    1. Doc2

    2. Doc4

    3. Doc5

    .

    .

    1. Doc1 

    2. Doc2 

    3. Doc3 

    .

    .

    Documentos

    ordenados

    Reformulação

    da consulta

    Feedback

    Arquitetura para Feedback de Relevância

    documentos

    Sistemas de RI

    Rankings


    Feedback de relev ncia repesagem de termos

    Feedback de relevânciaRepesagem de Termos

    • Term reweighting

    • Objetivo:

      • Aumentar o peso dos termos que aparecem em documentos relevantes e diminuir o peso de termos que aparecem em documentos irrelevantes

    • Existem diversos algoritmos para reformular consultas com base em repesagem de pesos


    Feedback de relev ncia repesagem de termos1

    Feedback de relevânciaRepesagem de Termos

    • Reformulação de consulta para o Modelo Vetorial

      • Nesse modelo, consultas e documentos são representados como vetores de pesos

        • Modelo vetorial recupera documentos que são similares à consulta do usuário

      • Se soubéssemos a priori que documentos são relevantes, saberíamos quais consultas seriam as mais adequadas

        • As consultas ideais seriam aquelas mais similares aos documentos relevantes no espaço vetorial


    Feedback de relev ncia repesagem de termos2

    Feedback de relevânciaRepesagem de Termos

    • Reformulação de Consulta para o Modelo Vetorial

      • Adicione à consulta inicial os vetores dos documentos considerados com relevantes

      • Subtraia da consulta inicial os vetores dos documentos considerados com irrelevantes

      • Desta forma, os pesos da consulta são reformulados, aproximando-se dos documentos relevantes


    Feedback de relev ncia repesagem de termos3

    Feedback de relevânciaRepesagem de Termos

    • Métodos:

      • Método Rochio Padrão

      • Método Ide

      • Método Ide “Dec Hi”

    • Ocultei os slides porque é muita fórmula……..


    Feedback de relev ncia repesagem de termos4

    Feedback de relevância Repesagem de Termos

    • Comparação dos Métodos

      • Todos os métodos, de uma forma geral, melhoram os resultados da RI

        • Resultados experimentais não indicam uma dominância clara de nenhum método

      • Geralmente, parâmetros são definidos como constantes iguais a 1

      • Alguns autores usam apenas o conjunto dos documentos relevantes (ou seja = 0 )

        • Método de Feedback Positivo


    Feedback de relev ncia

    Feedback de relevância

    • Porque Feedback não é largamente usado

      • Usuários algumas vezes relutam em fornecer feedback explícito

      • Requer maior tempo de computação

      • Às vezes, dificulta o entendimento de porque um determinado documento foi recuperado


    Pseudo feedback

    Pseudo-Feedback

    • Usa feedback de relevância sem uma entrada explícita do usuário

    • Apenas assume que os top m documentos recuperados são relevantes, e então reformulam a consulta

      • É um método de feedback positivo

    • Melhorou o desempenho de RI no corpus do TREC


    Arquitetura de pseudo feedback

    Consulta inicial

    Consulta

    Reformulada

    Documentos

    reordenados

    1. Doc1

    2. Doc2

    3. Doc3

    .

    .

    1. Doc2

    2. Doc4

    3. Doc5

    .

    .

    1. Doc1 

    2. Doc2 

    3. Doc3 

    .

    .

    Documentos

    Ordenados

    Reformulação

    da consulta

    Pseudo

    Feedback

    Arquitetura de Pseudo-Feedback

    Corpus de

    Documentos

    Sistema

    RI

    Rankings


    Pr xima aula

    Próxima aula

    • Construção de bases de índices

    • Definição das equipes e dos projetos


  • Login