A Validity Measure for Hard and Fuzzy Clustering Derived from Fisher’s Linear Discriminant

A Validity Measure for Hard and Fuzzy Clustering Derived from Fisher’s Linear Discriminant Cláudia R. de Franco Leonardo da S. Vidal Adriano J. de O. Cruz May 2002

Topics • Validity Measures • Finding the number and the distribution of clusters • Pattern Recognition • Identify and classify patterns

Índice • Estudo Realizado • Categorização • Classificação • Validação de Categorias • Propostas • EFLD • ICC • Sistema ICC-KNN

Estudo Realizado  Categorização  Classificação  Validação de Categorias

Categorização • Processo de particionar um conjunto de amostras em subconjuntos (categorias) • Dados similares entre si por suas características • Disposição Espacial • Categoria definida pela proximidade das amostras – Distância • Partições Rígidas e Nebulosas

Classificação • Técnica que associa amostras a classes previamente conhecidas • Rígida e Nebulosa • Supervisionados • MLP  treinamento • Não supervisionados • K-NN e K-NN nebuloso  sem treinamento

Reconhecimento de Padrões • Reconhecimento de Padrões + Categorização  Sistema Estatístico Não paramétrico de Reconhecimento de Padrões • Estatístico  avalia a similaridade dos dados através de medidas matemáticas • Não-Paramétrico  sem conhecimento prévio da distribuição das amostras

Identificação de Características Denominação de Características Dados de Treinamento Taxa de erro Extração de Características Classificador Dados de Teste Categorização Validação de Categorias Sistema Estatístico Não-Paramétrico de Reconhecimento de Padrões

Métodos de Categorização • Não-Hierárquicos • Dados distribuídos pelo número de categorias pré-definido • Critério é otimizado • Minimização da variação interna das categorias

Métodos de Categorização • Hierárquico  1ª Abordagem • Cada ponto é um centro de categoria • Cada 2 pontos mais próximos são fundidos em uma categoria • Número de categorias desejado é atingido • Hierárquico  2ª Abordagem • Uma categoria contém todas as amostras • Critério é utilizado para dividí-la no número de categorias desejado

Métodos de Categorização • Rígidos • Cada amostra pertence a uma única categoria • Nebulosos • Cada amostra pertence a todos os agrupamentos com diferentes graus de afinidade • Grau de inclusão

Métodos de Categorização  k-Means  K-NN e K-NN nebuloso FCM  FKCN GG GK

Métodos de Categorização • K-Means e FCM • Distância Euclidiana  Hiperesferas • Gustafson-Kessel • Distância de Mahalanobis  Hiperelipsóides • Gath-Geva • Distância de Gauss  superfícies convexas de formato indeterminado

Rede Kohonen de Categorização Nebulosa FKCN • Método de Categorização Nebuloso não supervisionado • Distância Euclidiana • Categorias hiperesféricas • Converge mais rápido que FCM • Forte tendência a convergir para mínimos locais • Categorias pouco representam as classes

K-NN e K-NN nebuloso • Métodos de Classificação • Classes identificadas por padrões • Classifica pelos k vizinhos mais próximos • Conhecimento a priori das classes do problema • Não se restringe à uma distribuição específica das amostras

Classe 2 Classe 1 Classe 3 w4 w2 w5 w3 w13 w9 w14 w1 w10  w8 w7 w6 w11 w12 Classe 4 Classe 5 K-NN Rígido

Classe 2 Classe 1 Classe 3 w2 w4 w5 w13 w9 w1 w14 w3 w10  w8 w7 w6 w11 w12 Classe 4 Classe 5 K-NN Nebuloso

Medidas de Validação

Validity Measures • Used to find the ideal number of clusters that represent the sample space. • Number of classes unknown • Number of classes  Number of clusters

Validity Measures • Applied to the partitions generated by the clustering algorithm • Measure the quality of the partitions • Crisp or Fuzzy

Coeficiente de Partição – F • Medida de Validação Nebulosa • Maximizar – 1/c  F  1 • Diretamente influenciada pelo • Número de categorias e Sobreposição das classes

Compacidade e Separação – CS • Medida de Validação Nebulosa • Minimizar – 0  CS   • Avalia diferentes funções objetivo

Compacidade e Separação – CS • Mede: • O grau de separação entre as categorias • A compacidade das categorias • Não sofre influência da sobreposição das categorias • Maior taxa de acertos dentre as medidas de validação estudadas

Discriminante Linear de Fisher - FLD • Crisp Validity Measure • Measures the compactness and separation of the partitions produced by crisp clustering techniques • Between-Class Scatter Matrix – SB • Within-Class Scatter Matrix Scatter – SW

Discriminante Linear de Fisher - FLD • Critério J – Maximizado 

Indicadores de Validade • Calculam o grau de separação entre as categorias • Menor a sobreposição das categorias  melhor a categorização obtida • MinRF, MaxRF e MinNMMcard

Propostas  EFLD  ICC  Sistema ICC-KNN

EFLD

EFLD • Extended Fisher Linear Discriminant • Capable of validate crisp and fuzzy clusters

EFLD • Extended between-classes scatter matrix • mei is the centroid of cluster i  and

EFLD • Extended within-class scatter matrix • Extended total scatter matrix  

EFLD • It can be proved that if the sum of all membership values of any element is equal to one then the total scattering is independent of the partition

EFLD • Extended Fisher Linear Discriminant • Determinants impose limits on the minimum number of points of each cluster • Trace - faster • No limitations due to the number of points

EFLD – Otimização • Matrix traces are the product of a column vector by its transpose • Trace is equal to the square of the module of this vector

EFLD – Improving • Sum of both traces (SBe and Swe) is constant • sT is evaluated only once • Calculating sBe is faster than sWe

EFLD – Improving • So EFLD can be rewritten as • Faster to evaluate • Find the maximum value of Je 

EFLD – testing • Three classes, 500 point each • X1 – (1,1), (6,1), (3,5, 7) with Std 0,3 • X2 – (1,5, 2,5), (4,5, 2,5), (3,5, 4,5) with Std 0,7 • Apply FCM to m = 2 and c = 2 ...6

EFLD – Aplication • For superposed classes, Je, like J (FLD), is not a good measure • Behaviour similar to FLD

EFLD – Aplication Alocação errônea dos centros Mínimo local = Ponto médio do conjunto de pontos Je extremamente pequeno = 9,8010 x 10-5

ICC

ICC – Inter Class Contrast • EFLD • Increases as the number of clusters rises. • Increases when classes have high degree of overlapping.  Reaches maximum for a wrong number of clusters.

ICC • Evaluates a crisp and fuzzy clustering algorithms • Measures: • Partition Compactness • Partition Separation • ICC must be Maximized

ICC • sBe – estimates the quality of the placement of the centres. • 1/n – scale factor • Compensates the influence of the number of points in sBe

ICC • Dmin – minimum Euclidian distance between all pairs of centres • Neutralizes the tendency of sBe to grow, avoiding the maximum being reached for a number of clusters greater than the ideal value. • When 2 or more clusters represent a class – Dmin decreases abruptly

ICC • – square root of the number of clusters • Avoids the maximum being reached for a number of clusters below the ideal. • When 1 cluster represents two or more classes - Dmin increases

ICC – Fuzzy Application • Five classes with 500 points each • No class overlapping • X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 • Apply FCM for m = 2 and c = 2 ...10

ICC – Fuzzy Application • Five classes with 500 points each • High cluster overlapping • X1 – (1,2), (6,2), (1, 6), (6,6), (3,5, 9) Std 0,3 • Apply FCM for m = 2 and c = 2 ...10

A Validity Measure for Hard and Fuzzy Clustering Derived from Fisher’s Linear Discriminant