1 / 33

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS. Hector enrique de la hoz LEÓN. Ordem da apresentação. Introdução Motivação Componentes de algoritmos de clustering Definições. Algoritmos de clustering Aplicação. Introdução.

Download Presentation

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS Hector enrique de lahoz LEÓN

  2. Ordem da apresentação • Introdução • Motivação • Componentes de algoritmos de clustering • Definições. • Algoritmos de clustering • Aplicação.

  3. Introdução • Clustering: É o processo de classificação não supervisionada de padrões em grupos chamados de clusters. Aprendizado supervisionado Aprendizado NÃO supervisionado dados dados Classificação

  4. DADOS NÃO CLASSIFICADOS Dados Clusterizados

  5. Motivação • Grandes quantidades de dados são geradas e armazenadas diariamente. • A pressão da competência é forte. • Os Computadores são poderosos e baratos.

  6. Representação de padrões Dado Clusters Extração de características Medida de Similaridade Agrupamento Loop de Feedback Componentes dos sistemas de clustering

  7. características Seleção Extração Utilizar uma ou mais transformações no conjunto de características para gerar novas propriedades ainda mais representativas. • Ao processo de Identificar o conjunto mais representativo de características. • As características podem ser: • Qualitativas . • Quantitativas.

  8. Representação dos clusters • Pelo centroide do cluster. • Por pontos distantes do cluster. • Utilizando nós em arvores de classificação. • Utilizando expressões logicas conjuntivas.

  9. Função de similaridade • Os clusters estão formados por dados com características semelhantes. • São as relações que medem a distância entre um par de padrões no espaço de características • Euclidiana. • Minkowski (p>2) • Mahalonobis • Manhattan

  10. AGRUPAMENTO

  11. Clustering Hierárquico Divisional Classificação dos algoritmos de clustering Erro quadrático Teoria de grafos CSP Busca Link completo Max. da esperança Link simples k-means

  12. Abordagens para clusterização (parte i) • Aglomeração. • Inicia tantos cluster quantos dados. • Separação. • Inicia um clusters só. • Monothetic. • Todas as características são utilizadas simultaneamente. • Polithetic. • As características são utilizadas sequencialmente.

  13. Abordagens para clusterização (parte ii) • Duro • Cada dado pertence a um e só um cluster. • Fuzzi • Cada dado é classificado com uma variável de pertinência a cada cluster

  14. Exemplos das abordagens Aglomerativo Monothetic Fuzzi

  15. Definições fundamentais (PARTE i) • Padrão: Itens de dados utilizados pelos algoritmos de clustering. Representados por um vetor de características. • Características: Cada uma das componentes dos padrões (Atributos). • Conjunto de dados: O conjunto de padrões analisados pelo algoritmo.

  16. Definições fundamentais (PARTE iI) • Classe: • Estado da natureza que governa a geração de padrões. • uma fonte de padrões cuja distribuição no espaço de característica esta governada por uma determinada função de densidade de probabilidade. • Rotulo: • É o valor assignado pelo algoritmo de clustering aos dados que pertencem à mesma classe.

  17. CLUSTERING HIERARQUICOS(Link simples) • Iniciar o algoritmo colocando cada padrão do conjunto de dados em um cluster diferente. • Construir a lista das distâncias entre os padrões e organiza-la em forma ascendente. • Percorrer a lista de distâncias ordenadas, e aglomerar os padrões com distancias menores do que um determinado D. • Repetir até obter o numero de clusters desejados: • Calcular a distância entre todos os pares de padrões de classes diferentes. • Aglomerar as classes cuja mínima distância seja menor do que D. • Atualizar as distâncias e atualizar D caso necessário.

  18. CLUSTERING HIERARQUICOS LINK SIMPLES LINK COMPLETO

  19. Clustering teoria de grafos • Calcular o minimalspanningtree (MST). • Formar os cluster eliminando as ramas de maior valor.

  20. Clustering incremental • Iniciar o algoritmo associando um padrão ao primer cluster • Analisar o seguinte padrão do conjunto de dados e classifica-lo em algum dos clusters existentes ou em um novo cluster baseando-se em algum critério de similaridade. • Repetir o passo anterior até todos os padrões estarem classificados.

  21. Clustering incremental

  22. K-MEANS • • Escolher k pontos, dentro do espaço de características, representando os centros dos k clusters em que é desejado dividir o conjunto de dados. • • Assignar cada padrão ao centro mais próximo de acordo com a função de similaridade. • • Recalcular os centros dos clusters utilizando os dados membros de cada cluster. • • Repetir o algoritmo desde o item dois até atingir um critério de parada.

  23. Características do K-MEANS • •O seu tempo de convergência é proporcional ao numero de padrões n, ao numero de clusters k e ao numero de iterações l. • • O espaço de memoria requerido é proporcional ao numero de dados e ao numero de clusters. • • Para um dado conjunto inicial de centros, o algoritmo gera a mesma partição de dados sem importar a ordem em que os dados são apresentados. • sensibilidade com respeito à seleção dos k primeiros centros.

  24. Seleção dos k centros. • • Selecionar os extremos e/ou o centro do espaço de características como centroides iniciais dos clusters. • • Dividir o espaço de características e selecionar randomicamente em cada seção algum ponto como centroide de um cluster. Isto garante que os centroides estejam espalhados por todo o espaço de caraterísticas. • • Selecionar os centros dos clusters perto do centro de massa do conjunto de dados. Cada centro é obtido adicionando um valor randômico ao centro de massa dos dados.

  25. COMPARAÇÃO ENTRE TÉCNICAS

  26. APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS

  27. APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (otsu) • Efetuar o cálculo do histograma da intesidade dos pixeis. • Calcular o limiar que maximize a variância ponderada entre as classes

  28. APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (otsu)

  29. APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (otsu)

  30. APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (k-means) • • Efetuar o cálculo do histograma de cores. • • Seleção das cinco cores de maior frequência como possível centroide do cluster. • Escolhe-se como semente aquela que possui maior quantidade de pixeis a uma distância de Manhattan menor do que um limiar τ (utilizou-se nesta aplicação um limiar τ=20).

  31. APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (k-means)

  32. APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (k-means)

  33. OBRIGADO

More Related