ANALISI DEI GRUPPI I
Download
1 / 29

ANALISI DEI GRUPPI I - PowerPoint PPT Presentation


  • 121 Views
  • Uploaded on

ANALISI DEI GRUPPI I. La Cluster analysis è uno strumento di classificazione capace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche. Impieghi della Cluster Analysis. segmentazione del mercato. analisi della concorrenza. analisi della concorrenza.

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' ANALISI DEI GRUPPI I' - avram-tucker


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript

La Cluster analysisè uno strumento di classificazionecapace di scomporre una realtà complessa di osservazioni plurime in tipologie specifiche.


Impieghi della Cluster Analysis

  • segmentazione del mercato

  • analisi della concorrenza

  • analisi della concorrenza


La Cluster Analysisè una tecnica di tipo esplorativo e pertanto, a differenza di quanto si verifica con altre tecniche statistiche multivariate, non è necessaria alcuna assunzione a priori sulle tipologie fondamentali esistenti nell'insieme delle unità esaminate


Punto di partenza di ogni applicazione di Cluster Analysisè la disponibilità di un collettivo statistico (anche campionario) di n elementi, ciascuno rappresentato da p variabili


La matrice dei dati

x11 x12 … x1p

x21 x22 … x2p

X =

... ... … ...

xn1 xn2 … xnp


Ad ogni unità statistica è associato un vettore di p osservazioni, i cui valori sono configurabili come coordinate dell'unità considerata in uno spazio a pdimensioni.


Fasi del processo di segmentazione


  • scelta delle variabili ed eventuale trasformazione

  • scelta del criterio di valutazione della dissomiglianza

  • scelta dell'algoritmo di raggruppamento

  • determinazione del numero di gruppi


Scale di misurazione delle variabili:

  • nominale

  • ordinale

  • ad intervallo

  • a rapporti



  • variabili qualitative: correlazione tra ranghi di Spearman o coefficiente di cograduazione di Gini

  • variabili miste: coefficiente di cograduazione di Gini, previa sostituzione dei valori delle variabili quantitative con i rispettivi ranghi



Ricondurre tutti i caratteri alla stessa scala, ovvero a quella contraddistinta dai minori requisiti

La scelta delle variabili di input condiziona anche la necessità di una loro eventuale standardizzazione: è infatti opportuno che le variabili siano rese indipendenti dal loro ordine di grandezza


Standardizzazione quella contraddistinta dai minori requisiti(variabili quantitative)


x quella contraddistinta dai minori requisitii

-

m

zi

=

sx

zi è il valore della variabile standardizzata per l'unità i-ma,

xi è il valore originario della variabile per l'unità i-ma,

m è la media aritmetica del carattere

sx è lo scarto quadratico medio

dove


misurano la somiglianza tra unità quando i caratteri sono espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

Coefficienti di associazione


individuo espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completaj

1

0

a

b

1

individuo i

c

d

0

Tabella tetracorica


coefficiente di Jaccard espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

A

B

a

Jsij

=

a

b

c

+

+

coefficiente di Dice

2a

Dsij

=

2a

b

c

+

+

Misure di associazione:


p espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

Œ

wkskij

k=1

G

s

=

ij

p

Œ

wk

k=1

Quando i caratteri sono sia qualitativi che quantitativi si ricorre al coefficiente di Gower:


s espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completakijè un indicatore di somiglianza tra le unità i e j rispetto alla variabile k che vale

uno se l variabile è di tipo nominale o ordinale e vi è concomitanza di presenza o assenza per i e j

zero se la variabile è di tipo nominale o ordinale e non vi è concomitanza di presenza o assenza per i e j

dove


x espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completaik

xjk

-

1

-

Rk

con Rk che è il campo di variazione della variabile k

wk è un peso arbitrario


Variabili espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

2

1

3

4

5

Unità i

1

0

1

1

0

1

1

0

1

0

Unità j

Esempio di calcolo dei coefficienti di associazione


individuo espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completaj

1

0

2

1

1

individuo i

1

1

0

Tabella tetracorica


Coefficiente di Jaccard = espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa1/2

Coefficiente di Dice = 2/3

Coefficiente di associazione semplice = 3/5


Per i dati di tipo espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completaquantitativo si ricorre alle distanze


identità espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completadii= 0

simmetria dij= dji

non negatività dij≥ = 0

disuguaglianza triangolare dil + dlj ≤ = dij

Una distanza possiede le seguenti proprietà:


p espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

1/r

r

=

rdij

xik - xjk

k=1

1/r

p

2

=

2dij

xik - xjk

k=1

Distanza di Minkowski

Per r = 2 si ha la distanza euclidea


p espressi su scala nominale binaria. Quando i caratteri hanno più modalità si ricorre alla codifica disgiuntiva completa

p

1/2

shk

=

dij

(xik - xjk) (xih - xjh)

k=1

h=1

Distanza di Mahalanobis

in cui

shk indica il generico elemento della matrice inversa delle varianze-covarianze tra le pvariabili


ad