390 likes | 506 Views
Visualização da Informação. Ana Cecília - acva@cin.ufpe.br Iandé Coutinho – recife@gmail.com Érick Gomes -eag0911@gmail.com 04/11/2008. Agenda. Visualização de Informação Processo de Geração de Visualização Redução de Dimensionalidade – PCA Ferramenta PEX. Recuperação de Informação
E N D
Visualização da Informação Ana Cecília - acva@cin.ufpe.br Iandé Coutinho – recife@gmail.com Érick Gomes -eag0911@gmail.com 04/11/2008 Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Agenda Visualização de Informação Processo de Geração de Visualização Redução de Dimensionalidade – PCA Ferramenta PEX Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Recuperação da informação • Tradicionalmente: • Baseado em palavra-chave • Limitação de exibição: • Apresentação do resultado por lista linear • Relacionamentos entre os documentos não é ilustrado • Sem interação do usuário Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Recuperação da informação • Ex: Usuários realizando buscas na Internet obtêm facilmente um volume enorme de informações • Dificuldades de selecionar as informações relevantes Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Recuperação da informação • Como melhorar a exibição dos resultados? • Visualização da informação! • Segundo Card, a Visualização de Informação é o uso de representação visual, interativa e suportada por computador, de dados abstratos para ampliar a cognição. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Visualização da Informação • Por que visualização? • Informações representadas graficamente tendem a ser processadas de maneira mais automática pela visão. • Aumenta a percepção do usuário • Aumenta o processo de cognição e inferência • Fornece navegação sobre os dados • obtenção de uma visão geral • visão detalhada (zooming, filtragem) • identificação de relacionamentos • Identificação de padrões Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Visualização da Informação • Por que visualização? • A visualização de informações permite a apresentação de dados em formas gráficas de modo que o usuário possa utilizar sua percepção visual para melhor analisar e compreender as informações • Análise de dados realizada com mecanismos computacionais, mas também recursos da visão e da cognição humana. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Exemplo • Densidade populacional Americana: Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Visualização em RI • Procura transformar em uma representação gráfica e interativa um conjunto de dados brutos. • Processo de Visualização em RI • Transformar dados brutos em estruturas visuais • Projetar uma informação no espaço • Informações organizadas têm estruturas espaciais intrínsecas: • EX: relações semânticas entre os objetos (matriz de similaridade) Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Processo de Visualização em RI Dados brutos: dados coletados sobre a situação a ser estudada, a partir dos quais se deseja obter as informações A coleta pode ser feita por : sistemas computacionais Por diferentes dispositivos como sensores e câmeras manualmente pelo próprio indivíduo.
Processo de Visualização em RI • O conjunto de dados brutos coletados pode ser heterogêneo, contendo: • datas, medidas, quantidades, códigos, descrições, coordenadas espaciais, imagens, vídeos, • arquivos diversos, endereços de sites da Internet, entre outros. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Geração do processo de Visualização • Transformação dos dados: Tratamento dos dados coletados • Dados coletados podem estar dispersos e sem relacionamento aparente • Organização do dados coletados de forma a oferecerpossibilidade de obter informação • informação obtida através de consulta e comparação de entidades similares, de suas características e dos relacionamentos entre diferentes entidades Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Geração do processo de Visualização • Transformação dos dados: • ordenação, cálculo de médias e classificação de características são algumas operações que podem ser aplicadas sobre as estruturas de dados obtidas. • permitem classificar e agregar entidades que compartilham características semelhantes, possibilitando a sumarização e abstração do conjunto de dados coletado Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Geração do processo de Visualização • Estruturas visuais: • Mapeamento visual • Definição do modo como as estruturas de dados são transformadas em estruturas visuais • Leva em conta quais as características dos dados a serem representados, das propriedades visuais que podem ser usadas para representar esses dados • interface humano-computador envolvida no processo (no caso, a tela de exibição dos dados e os dispositivos de recebimento de interações do usuário), • visão e cognição humana Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Geração do processo de Visualização • Estruturas visuais: • O mapeamento visual dos dados estabelece como cada atributo será representado, ou seja, quais propriedades gráficas e espaciais podem ser utilizadas para sua representação. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Geração do processo de Visualização • Estruturas visuais: • Propriedades gráficas Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Geração do processo de Visualização • Técnicas de visualização ou espacialização dos dados: • Qual técnica de visualização deve ser empregada? • Dependente do tipo de informação • Técnicas podem ser: • Unidimensionais (1D) • Temporais Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Geração do processo de Visualização • Técnicas podem ser: • Bidimensionais (2D) • Tridimensionais (3D) • Multidimensionais (nD) (Uso de PCA para reduzir dimensões), • Dirigidas à visualização de hierarquias e de relacionamentos (grafos), • Obtenção de uma visão geral, visão detalhada (zooming, filtragem) • identificação de relacionamentos Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Exemplo 1 Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Exemplo 2 Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Resumidamente, as técnicas de visualização de informações procuram representar graficamente dados de um determinado domínio de aplicação de modo que a representação visual gerada explore a capacidade de percepção do homem e este, a partir das relações espaciais exibidas, interprete e compreenda as informações apresentadas e, finalmente,deduza novos conhecimentos. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Problema na Visualização • Grande volume de informação e/ou representação ininteligível • necessário reduzir a informação a visualizar • simplificação da representação • Pode eliminar alguma da informação sobre o conjunto de dados. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
REDUÇÃO DE DIMENSÃO Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Projection Explorer - PEX • Pex é uma ferramenta construída em Java que pode ser utilizada para criare explorar representações visuais de coleções de documentos, ajudando o usuário a analisar seus conteúdos. • PEx pode ser dividido em quatro etapas principais: • pré-processamento, • cálculo da matriz de distâncias, • projeção • apresentação/interação com usuário. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Ferramenta PEx (Projection Explorer) Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio
Projection Explorer • Java based tool... • Objetivo - Usada para criar e explorar representações visuais de coleções de documentos. • Projection Explorer (version 1.6.1) University of São Paulo (USP), São Carlos/SP, Brazil Matemathical and Computer Science Institute (ICMC) Computer Graphics and Image Processing Group
PEx – Tipos suportados • Dados estruturados (tabelas) – pontos de dados com atributos numéricos e “labels”. • Distância de dados – matrizes triangulares cujos elementos descrevem valores de similaridade entre pontos de dados. • Conjuntos de dados texto. • Resultados de pesquisas na web.
PEx – Características de Visualização • Projeta os itens de dados como pontos num espaço 2D de saída. • Todo ponto representa um item de dado. • A proximidade dos pontos indica a relação de similaridade, de acordo com as medidas escolhidas.
PEx – Características de Visualização • Labels são mostrados no topo dos nós. • Permite realizar pesquisas e os nós são coloridos de acordo com a freqüência de ocorrência do termo. • Detecta e exibe automaticamente tópicos sobre grupos de documentos. • Ferramentas para explorar o gráfico de visualização de dados estão disponíveis.
PEx – Características de Visualização • Diferentes relacionamentos entre “vizinhos” podem ser exibidos como arestas entre os nós, ajudando a exploração de similaridade. • Objetivo: Representação de similaridade Método de triangulação de Delaunay Método KNN (K Nearest Neighbors Método KNN (K Nearest Neighbors
PEx – Características de Exploração • Cada ponto é exibido como um círculo, usualmente chamado de “nó”. • Conexões entre os nós são exibidas para mostrar alguma ordem de relação entre os pontos de dados, formando gráficos ou uma triangulação.
PEx – Processo de Projeção • O usuário pode iniciar a projeção com: • Uma coleção de documentos (1) • Uma tabela de dados estruturados, Points File (2) • Uma matriz de distâncias (3) Na primeira opção documentos são convertidos numa representação de vetor. Na segunda opção as distâncias são calculadas diretamente do Points File. Na terceira opção a matriz de distâncias é inserida diretamente. A partir de relacionamentos de distâncias a projeção 2D é gerada.
PEx – Processamento do Corpus • Técnicas de projeção disponíveis: • PCA (Principal Component Analysis) • IDMAP (Interactive Document Map) • LSP (Least Square Projection) • ProjClus (Projection by Clustering) • ISOMAP (Isometric Feature Mapping) • Entre outras.
PEx – Processamento do Corpus • Tipos de distância disponíveis: • Euclidiana • city block (Manhatan) • Baseada em co-seno • Extended Jaccard • Infinity Norm
PEx – Processamento do Corpus • Redução do espaço vetorial: • Stemming • Redução de termos ao radical. • Stopwords • Redução de termos através de lista de palavras. • Luhn • Também conhecido como “cortes de Luhn” • Redução de termos pela sua freqüência. • Startwords
Referências • Silva, C. G. Considerações sobre o uso de Visualização de Informação no auxílio à gestão de informação • J. Zhang. Visualization for Information Retrieval, University of Visconsin, School of Information Studies. • Freitas C., Chubachi O., Luzzardi P., Cava R., Introdução à Visualização de Informações. • Site: http://virtual.inesc.pt/8epcg/actas/c6/s0.html • Paulovich F., Oliveira M., Minghin R., The Projection Explorer: A flexible tool for projection-based multidimensional visualization, Universidade de São Paulo. Recuperação de Informação Prof.: Flávia Barros/Ricardo Prudêncio