Clustering Algorithms Review: Concepts and Applications in Data Analysis

CLUSTERING: UMA REVISÃO AOS ALGORITMOS BÁSICOS Hector enrique de lahoz LEÓN

Ordem da apresentação • Introdução • Motivação • Componentes de algoritmos de clustering • Definições. • Algoritmos de clustering • Aplicação.

Introdução • Clustering: É o processo de classificação não supervisionada de padrões em grupos chamados de clusters. Aprendizado supervisionado Aprendizado NÃO supervisionado dados dados Classificação

DADOS NÃO CLASSIFICADOS Dados Clusterizados

Motivação • Grandes quantidades de dados são geradas e armazenadas diariamente. • A pressão da competência é forte. • Os Computadores são poderosos e baratos.

Representação de padrões Dado Clusters Extração de características Medida de Similaridade Agrupamento Loop de Feedback Componentes dos sistemas de clustering

características Seleção Extração Utilizar uma ou mais transformações no conjunto de características para gerar novas propriedades ainda mais representativas. • Ao processo de Identificar o conjunto mais representativo de características. • As características podem ser: • Qualitativas . • Quantitativas.

Representação dos clusters • Pelo centroide do cluster. • Por pontos distantes do cluster. • Utilizando nós em arvores de classificação. • Utilizando expressões logicas conjuntivas.

Função de similaridade • Os clusters estão formados por dados com características semelhantes. • São as relações que medem a distância entre um par de padrões no espaço de características • Euclidiana. • Minkowski (p>2) • Mahalonobis • Manhattan

AGRUPAMENTO

Clustering Hierárquico Divisional Classificação dos algoritmos de clustering Erro quadrático Teoria de grafos CSP Busca Link completo Max. da esperança Link simples k-means

Abordagens para clusterização (parte i) • Aglomeração. • Inicia tantos cluster quantos dados. • Separação. • Inicia um clusters só. • Monothetic. • Todas as características são utilizadas simultaneamente. • Polithetic. • As características são utilizadas sequencialmente.

Abordagens para clusterização (parte ii) • Duro • Cada dado pertence a um e só um cluster. • Fuzzi • Cada dado é classificado com uma variável de pertinência a cada cluster

Exemplos das abordagens Aglomerativo Monothetic Fuzzi

Definições fundamentais (PARTE i) • Padrão: Itens de dados utilizados pelos algoritmos de clustering. Representados por um vetor de características. • Características: Cada uma das componentes dos padrões (Atributos). • Conjunto de dados: O conjunto de padrões analisados pelo algoritmo.

Definições fundamentais (PARTE iI) • Classe: • Estado da natureza que governa a geração de padrões. • uma fonte de padrões cuja distribuição no espaço de característica esta governada por uma determinada função de densidade de probabilidade. • Rotulo: • É o valor assignado pelo algoritmo de clustering aos dados que pertencem à mesma classe.

CLUSTERING HIERARQUICOS(Link simples) • Iniciar o algoritmo colocando cada padrão do conjunto de dados em um cluster diferente. • Construir a lista das distâncias entre os padrões e organiza-la em forma ascendente. • Percorrer a lista de distâncias ordenadas, e aglomerar os padrões com distancias menores do que um determinado D. • Repetir até obter o numero de clusters desejados: • Calcular a distância entre todos os pares de padrões de classes diferentes. • Aglomerar as classes cuja mínima distância seja menor do que D. • Atualizar as distâncias e atualizar D caso necessário.

CLUSTERING HIERARQUICOS LINK SIMPLES LINK COMPLETO

Clustering teoria de grafos • Calcular o minimalspanningtree (MST). • Formar os cluster eliminando as ramas de maior valor.

Clustering incremental • Iniciar o algoritmo associando um padrão ao primer cluster • Analisar o seguinte padrão do conjunto de dados e classifica-lo em algum dos clusters existentes ou em um novo cluster baseando-se em algum critério de similaridade. • Repetir o passo anterior até todos os padrões estarem classificados.

Clustering incremental

K-MEANS • • Escolher k pontos, dentro do espaço de características, representando os centros dos k clusters em que é desejado dividir o conjunto de dados. • • Assignar cada padrão ao centro mais próximo de acordo com a função de similaridade. • • Recalcular os centros dos clusters utilizando os dados membros de cada cluster. • • Repetir o algoritmo desde o item dois até atingir um critério de parada.

Características do K-MEANS • •O seu tempo de convergência é proporcional ao numero de padrões n, ao numero de clusters k e ao numero de iterações l. • • O espaço de memoria requerido é proporcional ao numero de dados e ao numero de clusters. • • Para um dado conjunto inicial de centros, o algoritmo gera a mesma partição de dados sem importar a ordem em que os dados são apresentados. • sensibilidade com respeito à seleção dos k primeiros centros.

Seleção dos k centros. • • Selecionar os extremos e/ou o centro do espaço de características como centroides iniciais dos clusters. • • Dividir o espaço de características e selecionar randomicamente em cada seção algum ponto como centroide de um cluster. Isto garante que os centroides estejam espalhados por todo o espaço de caraterísticas. • • Selecionar os centros dos clusters perto do centro de massa do conjunto de dados. Cada centro é obtido adicionando um valor randômico ao centro de massa dos dados.

COMPARAÇÃO ENTRE TÉCNICAS

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (otsu) • Efetuar o cálculo do histograma da intesidade dos pixeis. • Calcular o limiar que maximize a variância ponderada entre as classes

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (otsu)

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (k-means) • • Efetuar o cálculo do histograma de cores. • • Seleção das cinco cores de maior frequência como possível centroide do cluster. • Escolhe-se como semente aquela que possui maior quantidade de pixeis a uma distância de Manhattan menor do que um limiar τ (utilizou-se nesta aplicação um limiar τ=20).

APLICAÇÃO EM Binarização DE IMAGENS DIGITAIS (k-means)

OBRIGADO

Clustering Algorithms Review: Concepts and Applications in Data Analysis