1 / 24

Agrupamentos / Clustering

Agrupamentos / Clustering. Filipe Wanderley Lima ( fwl@cin.ufpe.br ). Roteiro. Motivação; Conceitos básicos; Modelos de clusters ; K-means; Aplicações . Encontrar conjuntos de dados pode ser fácil, mas classificá-los é custoso;

abe
Download Presentation

Agrupamentos / Clustering

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Agrupamentos / Clustering Filipe Wanderley Lima (fwl@cin.ufpe.br)

  2. Roteiro • Motivação; • Conceitos básicos; • Modelos de clusters; • K-means; • Aplicações.

  3. Encontrar conjuntos de dados pode ser fácil, mas classificá-los é custoso; • No estágios iniciais de uma investigação, uma análise exploratória dos dados pode ser útil para extrair informações sobre a natureza ou estrutura dos mesmos: • Quais sub-populações existem nos dados? • Quantas são? Quais seus tamanhos? • O que elementos de uma sub-população tem em comum? • Eles são homogênios, ou eles podem ser partidos ainda mais? • Existem outliers? Motivação

  4. Clustering é a tarefa de atribuir um conjunto de objetos em grupos (chamados clusters) de maneira que os objetos em um mesmo cluster são mais similares entre si do que aqueles em outros clusters. Conceitos básicos Conjunto de objetos Clusters

  5. É considerado um método para aprendizagem não supervisionada: • Não se sabe de antemão qual a classificação de cada dado. Conceitos básicos

  6. Clusters: • Varia entre algoritmos; • É uma das muitas decisões a serem tomadas na hora de escolher o algoritmo adequado; • Entender os modelos de clusters é a chave para entender as diferenças entre os vários tipos de algoritmos. Conceitos básicos

  7. Constroem modelos baseados na distância de conectividade: • Objetos são mais similares a objetos próximos do que a objetos que estão longe. • Um cluster pode ser definido pela distância máxima necessária para conectar as partes do cluster: • Difentes distâncias formam diferentes clusters. • Os clusters podem ser representados por dendrogramas: Hierárquicos Modelos de clusters A AB B C ABCDE CD D CDE E

  8. Não fornecem uma partição única do conjunto de dados, mas sim uma hierarquia extensiva de clusters que se juntam uns com os outros a certas distâncias; • Não são robustos para tratar de outliers. Hierárquicos Modelos de clusters

  9. Representa cada cluster como um simples vetor de média. Centróides Modelos de clusters

  10. Os clusters são modelados usando distribuições estatísticas: • Os clusters são definidos como objetos pertencentes provavelmente a uma mesma distribuição. • É um método forte, pois não somente fornece clusters, mas também produz modelos complexos de clusters que podem também capturar atributos de correlação e dependência. Distribuições Modelos de clusters

  11. Definem clusters como regiões de mais alta densidade do que o restante do conjunto de dados; Objetos nas áreas esparças são normalmente considerados como ruídos e pontos de fronteira; Esperam por uma baixa de densidade para detectar as fronteiras dos clusters; Densidade Modelos de clusters

  12. Escolha inicial dos centros: • Aleatória. • Cálculo da Distância: • Distância Euclidiana. • Critérios de Parada: • Não modificação dos clusters em duas iterações sucessivas. K-Means

  13. Exemplo K = 3 K-Means c2 Escolher os centros iniciais. Associar cada vetor ao cluster mais próximo. Determinar os novos centros. Associar cada vetor ao cluster mais próximo. Determinar os novos centros. Associar cada vetor ao cluster mais próximo. Não houve alterações. c1

  14. Applet intereativo: • http://home.dei.polimi.it/matteucc/Clustering/tutorial_html/AppletKM.html K-Means

  15. Agrupar tags por sua relevância: • https://addons.mozilla.org/en-US/firefox/addon/search-cloudlet-for-google-yah/ Aplicações

  16. Clustering resultados de busca. Aplicações

  17. Quantização de vetores para comprimir imagens. Ciência da computação Aplicações Imagem original K = 10 K = 3 K = 2 [Bishop, PR ML]

  18. Segmentação de imagens: • Usado para dividir uma imagem digital em regiões distintas para detecção de fronteiras ou reconhecimento de objetos. Ciência da computação Aplicações [http://www.cs.brown.edu/~pff/segment/]

  19. Sistemas de recomendação: • Prever as preferências dos usuários baseado nas preferências de outros usuários pertencentes ao mesmo cluster. Ciência da computação Aplicações

  20. Clustering de expressões de dados de genes. Aplicações [Eisen et al, PNAS 1998]

  21. Agrupamento de resultados de busca: • Pode ser usado para criar conjuntos de resultados de busca mais relevantes. Internet Aplicações [Yippy]

  22. Análise de redes sociais: • Usado para identificar comunidades entre grandes grupos de pessoas. Internet Aplicações

  23. Seminário sobre Categorização/Classificação & Agrupamento da disciplina de Mineração da Web 2011.1 Aula sobre Agrupamentos da disciplina de Aprendizagem de Máquina Introductory Applied Machine Learning por Chris Williams and Victor Lavrenko Clustering por Sriram Sankararaman Referências

  24. Dúvidas?

More Related