ANALISI DEI GRUPPI
Download
1 / 39

ANALISI DEI GRUPPI seconda parte - PowerPoint PPT Presentation


  • 123 Views
  • Uploaded on

ANALISI DEI GRUPPI seconda parte. Argomenti della lezione. Distanze. Metodi gerarchici: legame singolo e legame completo. Per i dati di tipo quantitativo si ricorre alle distanze. identità d ii = 0. simmetria d ij = dji. non negatività d ij ≥ = 0.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about 'ANALISI DEI GRUPPI seconda parte' - christmas


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Analisi dei gruppi seconda parte

ANALISI DEI GRUPPI seconda parte


Analisi dei gruppi seconda parte

Argomenti della lezione

  • Distanze

  • Metodi gerarchici: legame singolo e legame completo


Analisi dei gruppi seconda parte

Per i dati di tipo quantitativo si ricorre alle distanze


Analisi dei gruppi seconda parte

identità dii= 0

simmetria dij= dji

non negatività dij≥ = 0

disuguaglianza triangolare dil + dlj ≤ = dij

Una distanza possiede le seguenti proprietà:


Analisi dei gruppi seconda parte

p

1/r

r

rdij

=

xik - xjk

k=1

Distanza di Minkowski


Analisi dei gruppi seconda parte

p

1/r

2

2dij

=

xik - xjk

k=1

Per r = 2si ha la distanza euclidea


Analisi dei gruppi seconda parte

p

p

1/2

shk

=

dij

(xik - xjk) (xih - xjh)

k=1

h=1

Distanza di Mahalanobis

in cui

shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le pvariabili


Analisi dei gruppi seconda parte

d12

d1n

0

d21

0

d2n

D

=

dn1

0

dn2

Matrice delle dissomiglianze


Analisi dei gruppi seconda parte

Gli algoritmi gerarchici procedono sia per mezzo di una serie di aggregazioni successive o una serie di successive divisioni. Gli algoritmi aggregativi iniziano con tutte le unità distinte, così vi sono tanti gruppi quanti sono gli oggetti da classificare

Algoritmi gerarchici


Analisi dei gruppi seconda parte

I passaggi di un algoritmo aggregativo gerarchico applicato ad un insieme di nunità sono i seguenti:


Analisi dei gruppi seconda parte

Si inizia con ad un insieme di ngruppi contenenti ciascuno una sola unità e una matrice di distanze simmetrica nxn

2

1

Si individua nella matrice delle distanze la coppia più vicina (più simile), ad esempio quella formata dai gruppi U e V


Analisi dei gruppi seconda parte

Si raggruppano ad un insieme di U e V in un unico gruppo etichettato come (UV). Si aggiorna la matrice delle distanze cancellando le righe e le colonne corrispondenti ai clusters U e V e aggiungendo una riga e una colonna che riporta le distanze tra il gruppo (UV) e i restanti clusters

3


Analisi dei gruppi seconda parte

Si ripetono i passi 2 e 3 per ad un insieme di un totale di n-1 volte. Tutti gli oggetti sono raggruppati in un unico gruppo al termine della procedura.

4


Analisi dei gruppi seconda parte

Metodi di aggregazione gerarchica: ad un insieme di

  • legame semplice

  • legame completo

  • legame medio

  • di Ward


Analisi dei gruppi seconda parte

Distanza tra gruppi ( ad un insieme di dissimilarità) per (a) legame singolo, (b) legame completo, e (c) legame medio


Analisi dei gruppi seconda parte

3 ad un insieme di

1

4

d24

5

2

(a)

3

1

d15

4

5

2

(b)

3

1

4

5

2

(c)

d13+d14 +d15 +d23 +d24 +d25

6

Cluster distance


Analisi dei gruppi seconda parte

Legame semplice ad un insieme di

Le distanze tra i gruppi sono formate considerando la più piccola delle distanze istituibili a due a due tra tutti gli elementi dei due gruppi:

d(UV)W = min [ dUW , dVW]


Analisi dei gruppi seconda parte

individui ad un insieme di

A

B

C

D

E

A

0

B

9

0

C

3

7

0

D

6

5

9

0

E

11

10

2

8

0

Esempio

Passo 1


Analisi dei gruppi seconda parte

I due individui più vicini sono l'individuo ad un insieme di Ce l'individuo E

min ij (dij) = dCE = 2


Analisi dei gruppi seconda parte

Passo 2 ad un insieme di

d(CE),A = min [ d CA, d EA] = min [3,11] =3

d(CE),B = min [ d CB, d EB] = min [7,10] =7

d(CE),D = min [ d CD, d ED] = min [9,8] =8

Le distanze tra il gruppo (CE) e i rimanenti oggetti sono calcolate con il metodo del legame singolo:


Analisi dei gruppi seconda parte

(CE) ad un insieme di

A

B

D

(CE)

0

3

0

A

0

B

7

9

D

0

8

6

5

Si ottiene quindi la nuova matrice delle dissomiglianze


Analisi dei gruppi seconda parte

Passo 3 ad un insieme di

d (ACE)B = min [d(CE)B, d AB] = min[7,9] = 7

d (ACE)D = min [d(CE)D, d AD] = min[8,6] =6

La distanza minima è ora quella d(CE)A = 3 e quindi uniamo il gruppo A al gruppo CE. Procediamo successivamente a calcolare le nuove distanze:


Analisi dei gruppi seconda parte

B ad un insieme di

D

(ACE)

(ACE)

0

7

0

B

0

D

6

5

La nuova matrice delle dissomiglianze è la seguente:


Analisi dei gruppi seconda parte

Passo 4 ad un insieme di

d(ACE)(BD) = min [d(ACE)B, d(ACE),D] = = min [7,6] = 6

Ora la distanza minore tra i cluster è dBD =5, e a questo punto otteniamo due gruppi, (ACE) e (BD). La loro distanza secondo la regola del legame singolo è


Analisi dei gruppi seconda parte

(BD) ad un insieme di

(ACE)

(ACE)

0

6

(BD)

0

La matrice finale è la seguente:


Analisi dei gruppi seconda parte

Passo 5 ad un insieme di

La fusione finale avviene quindi ad una distanza pari 6


Analisi dei gruppi seconda parte

I risultati di una procedura di cluster gerarchica possono essere rappresentati dal dendrogrammao diagramma ad albero

I rami dell'albero rappresentano i cluster. I rami si uniscono in nodi le cui posizioni lungo l'asse delle distanze (o delle dissomiglianze) indicano il livello in cui avviene la fusione


Analisi dei gruppi seconda parte

6 essere rappresentati dal

4

Distanza

2

0

1

3

5

2

4

Individui

Dendrogramma della procedura di aggregazione con il legame singolo


Analisi dei gruppi seconda parte

Legame completo essere rappresentati dal


Analisi dei gruppi seconda parte

Ad ogni passo la distanza essere rappresentati dal (similarità)tra i gruppi è stabilita considerando i due elementi più lontani (dissimili) nei due gruppi. In questo modo la procedura del legame completo assicura che tutti gli elementi all'interno di un gruppo siano comprese ad una distanza massima (o somiglianza minima) l'uno dall'altro

d(UV)W = max [dUW, dVW]


Analisi dei gruppi seconda parte

individui essere rappresentati dal

A

B

C

D

E

A

0

B

9

0

C

3

7

0

D

6

5

9

0

E

11

10

2

8

0

Esempio

Passo 1


Analisi dei gruppi seconda parte

I due individui più vicini sono l'individuo essere rappresentati dal Ce l'individuo E

min ij (dij) = dCE = 2


Analisi dei gruppi seconda parte

Passo 2 essere rappresentati dal

d(CE),A = max [ d CA, d EA] = max [3,11] =11

d(CE),B = max [ d CB, d EB] = max [7,10] =10

d(CE),D = max [ d CD, d ED] = max [9,8] =9

Calcoliamo le distanze tra il gruppo (CE) e i restanti con il metodo del legame completo


Analisi dei gruppi seconda parte

(CE) essere rappresentati dal

A

B

D

(CE)

0

11

0

A

0

B

10

9

D

0

9

6

5

La nuova matrice delle distanze è la seguente:


Analisi dei gruppi seconda parte

Passo 3 essere rappresentati dal

d(BD)(CE) = max [d B(CE), d D(CE)] == max =[10,9] =10

La fusione successiva avviene tra i gruppi B e D. Le nuove distanze da calcolare sono le seguenti:


Analisi dei gruppi seconda parte

(BD) essere rappresentati dal

A

(ACE)

(ACE)

0

10

0

(BD)

0

A

11

9

e la matrice delle distanze è la seguente:


Analisi dei gruppi seconda parte

Passo 4 essere rappresentati dal

La fusione seguente produce il gruppo (ABD). Nel passo finale i gruppi (CE) e (ABD) sono raggruppati nella fusione finale.

Il dendrogramma che rappresenta la procedura di aggregazione

è il seguente


Analisi dei gruppi seconda parte

Dendrogramma della procedura di aggregazione con essere rappresentati dal il legame completo


Analisi dei gruppi seconda parte

12 essere rappresentati dal

10

8

Distanze

6

4

2

0

5

1

2

4

3

Individui