1 / 50

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING. Flávio Henrique Moura Stakoviak Orientador: Edeílson Milhomem. Roteiro. Sistemas de Recomendação Recuperação da Informação Clustering de Documentos Considerações Finais. Roteiro.

stacia
Download Presentation

RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING Flávio Henrique Moura Stakoviak Orientador: Edeílson Milhomem

  2. Roteiro • Sistemas de Recomendação • Recuperação da Informação • Clustering de Documentos • Considerações Finais

  3. Roteiro • Sistemas de Recomendação • Recuperação da Informação • Clustering de Documentos • Considerações Finais

  4. Sistemas de Recomendação • Sistemas de Recomendação • Sistemas de recomendação (SR) são responsáveis por identificar um usuário e lhe apresentar conteúdo, produtos ou ofertas personalizadas (REATEGUI, BOFF & VICCARI, 2005)

  5. Sistemas de Recomendação (cont.) Sistema de Recomendação

  6. Sistemas de Recomendação (cont.) • Filtragem Baseada em Conteúdo • Perfil do Usuário • Base de Itens • Filtragem Colaborativa • Perfil de Todos os Usuários • Base de Itens

  7. Roteiro • Sistemas de Recomendação • Recuperação da Informação • Clustering de Documentos • Considerações Finais

  8. Recuperação da Informação • Recuperação da Informação • A RI tem como objetivo auxiliar os usuários na busca por informações que os interessam em uma coleção de documentos. Tal auxílio se dá a partir da representação, armazenamento, organização e acesso a essas informações (RODRIGUES, 2009).

  9. Recuperação da Informação (cont.) • Modelos • Modelo Vetorial • Modelo Booleano • Modelo Probabilístico

  10. Recuperação da Informação (cont.) • Etapas • Aquisição • Preparação • Indexação • Busca • Ordenação

  11. Recuperação da Informação (cont.) • Aquisição de Documentos • Web Crawler Web Crawler Agendador URL Base de Textos

  12. Recuperação da Informação (cont.) • Preparação de Documentos • Case Folding • Stop Words • Stemming

  13. Recuperação da Informação (cont.) • Indexação de Documentos • Tipos • Campos • Thesaurus

  14. Recuperação da Informação (cont.) • Armazenamento de Documentos • Método duplo de acesso às informações armazenadas • Manipulação de grandes volumes atualizações • Controle de páginas obsoletas

  15. Recuperação da Informação (cont.) • Recuperação de Documentos • Palavras-chave • Casamento de Padrão • Estrutura

  16. Roteiro • Sistemas de Recomendação • Recuperação da Informação • Clustering de Documentos • Considerações Finais

  17. Clustering de Documentos • Clustering • é um método de descoberta de conhecimento que identifica agregações ou relações entre objetos, sendo um método útil para o agrupamento de documentos similares (WIVES, 1999)

  18. Clustering de Documentos (cont.) • Similaridade Padrão • Métricas de Distância Convêncionais • Similaridade Conceitual • Hierarquia de assuntos • Pesos

  19. Clustering de Documentos (cont.) • Edit Distance: Grau de similaridade entre « Peter » e « Piotr » Peter Pieter Substituição 1pt Pioter Inserção 1pt Piotr Exclusão 1pt D(Peter, Piotr) = 3

  20. Clustering de Documentos (cont.) Cluster 1 Cluster 2 Ferramenta de Clustering Cluster 3 Cluster 4 Cluster 5

  21. Clustering de Documentos (cont.) • Etapas de Clustering • Representação de Padrões • Mediação da Proximidade • Indentificação do Clustering • Abstração dos Dados • Validação dos Clusters

  22. Clustering de Documentos (cont.) • Representação de Padrões • Objeto • Documentos Textuais • Expansão dos Termos • Melhor Performance ou Maior Eficiência

  23. Clustering de Documentos (cont.) • Mediação de Proximidade • Qualitativos • Quantitativos

  24. Clustering de Documentos (cont.) • Identificação de Clusters • Clustering Hierárquico • Algoritmo Particional • Density-based • Model Based

  25. Roteiro (Clustering) • Clustering Hierárquico • Algoritmos Particionais • K-Means • K-Means Biseccionado • Density-Based • Model-Based

  26. Roteiro (Clustering) • Clustering Hierárquico • Algoritmos Particionais • K-Means • K-Means Biseccionado • Density-Based • Model-Based

  27. Clustering de DocumentosHieráquico • Hierarquia de partições simples • Cada cluster é uma combinação de dois outro clusters • Dendograma

  28. Clustering de DocumentosHierárquico (cont.) • Ascendente (bottom-up) • Começa com todos os clusters e combina pares até a raiz;

  29. Clustering de DocumentosHierárquico (cont.) • Descendente (top-down) • Começa com um único cluster e divide-se em dois até alcançar o nível da árvore

  30. Roteiro (Clustering) • Clustering Hierárquico • Algoritmos Particionais • K-Means • K-Means Biseccionado • Density-Based • Model-Based

  31. Roteiro (Clustering) • Clustering Hierárquico • Algoritmos Particionais • K-Means • K-Means Biseccionado • Density-Based • Model-Based

  32. Clustering de Documentosk-means • Cria um número fixo de K clusters • Vetores-documento • Centróides

  33. k1 k2 k3 Clustering de Documentosk-means (cont.) 5 4 3 2 1 0 0 1 2 3 4 5

  34. k1 k2 k3 Clustering de Documentosk-means (cont.) 5 4 3 2 1 0 0 1 2 3 4 5

  35. k1 k2 k3 Clustering de Documentosk-means (cont.) 5 4 3 2 1 0 0 1 2 3 4 5

  36. k1 k2 k3 Clustering de Documentosk-means (cont.) 5 4 3 2 1 0 0 1 2 3 4 5

  37. Roteiro (Clustering) • Clustering Hierárquico • Algoritmos Particionais • K-Means • K-Means Biseccionado • Density-Based • Model-Based

  38. Clustering de Documentosk-means biseccionado Selecionar um cluster Encontrardoissubgrupos Processo do k-means Não Cluster produzmaiorsimilaridade? No de clusters desejadoatingido? Sim Sim Não

  39. Roteiro (Clustering) • Clustering Hierárquico • Algoritmos Particionais • K-Means • K-Means Biseccionado • Density-Based • Model-Based

  40. Clustering de DocumentosDensity-Based • Características • Encontrar clusters de forma arbitrária • Lidar com ruídos • Tempo de execução baseado nos parâmetros de entrada

  41. Roteiro (Clustering) • Clustering Hierárquico • Algoritmos Particionais • K-Means • K-Means Biseccionado • Density-Based • Model-Based

  42. Clustering de DocumentosModel-Based • Características • Versão « probabilística » do k-means • Pertence a um cluster conforme algum peso • Capaz de lidar com incertezas associadas

  43. Clustering de Documentos (cont.) • Abstração dos Dados • Visa a interoperabilidade • Centróides • Protótipos

  44. Clustering de Documentos (cont.) • Validação dos Clusters • Comparação do resultado ideal com o resultado alcançado

  45. Roteiro • Sistemas de Recomendação • Recuperação da Informação • Clustering de Documentos • Considerações Finais

  46. Considerações Finais • Reduzir Sobrecarga de Informações com Sistemas de Recomendação • Recuperação eficiente de documentos com a Recuperação de Dados

  47. Considerações Finais • Informações de importância dos textos obtidas com a análise de dados • Clustering mais utilizados • Hierárquico • K-means

  48. Considerações Finais • Clustering Hierárquico • Prós: Melhor Qualidade • Contra: Complexidade Quadrática • K-means • Prós: Complexidade Linear • Contra: Pior qualidade

  49. Considerações Finais • K-means biseccionado • Variante do k-means • Mesmo tempo de execução • Qualidade equivalente ao Hierárquico • Trabalhos Futuros

  50. RECOMENDAÇÃO DE CONHECIMENTO CIENTÍFICO BASEADO NOS INTERESSES DO USUÁRIO ATRAVÉS DE CLUSTERING Flávio Henrique Moura Stakoviak Orientador: Edeílson Milhomem

More Related