Pre Processing dei dati

Pre Processing dei dati Modulo 1.2 C – Indici di Asimmetria e Curtosi La forma della distribuzione di frequenza ottenuta a livello empirico è analizzabile anche tramite specifici indici. Tra questi i più usati riguardano l’asimmetria della distribuzione (Skewness) e lo schiacciamento della stessa (Curtosi). Skewness Rappresenta lo spostamento del vertice della distribuzione dall’asse centrale: verso sinistra per valori di Skewness positivi e verso destra in concomitanza di valori negativi. Si considera una distribuzione come perfettamente normale quando presenta un valore di 0 relativamente alla Skewness; nonostante questo alcuni autori, data la potenza dei test utilizzati per calcolarla, suggeriscono di considerare accettabili valori di asimmetria compresi tra 0,5 e -0,5 per una buona normalità e tra 1 e -1 per una quasi normalità. Curtosi La curtosi rappresenta invece lo schiacciamento della campana della distribuzione, in generale un valori di curtosi negativo indica una distribuzione “più schiacciata” verso il basso rispetto alla normale, che viene definita platicurtica. Un valore di curtosi positivo invece indica una distribuzione “più appuntita” rispetto alla normale, che viene definita leptocurtica. Indice di curtosi di Pearson Indice di asimmetria di Pearson • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 D – Indici complessivi di Normalità Esistono infine alcuni test statistici che consentono di valutare se la distribuzione è normale. Tra questi di particolare rilievo, anche perché proposti nei più diffusi software statistici, sono il test di Kolmogorov Smirnov ed il test di Shapiro-Wilk. Se il test statistico che viene condotto su tali indici risulta significativo si deve rifiutare l’ipotesi nulla che la distribuzione in oggetto sia normale. • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Analisi della Distribuzione Univariata I quattro step precedentemente illustrati sono implementati su SPSS e raggiungibili attraverso la voce analyze della barra degli strumenti. Esempio di calcolo degli indicatori di normalità su alcune variabili relative ai punteggi ottenuti alle scale cliniche del MMPI-II, da un campione di soggetti sani. • - Fonti bibliografiche

Scala L

Scala F

Scala K

Indici di Asimmetria, Curtosi e Normalità Univariata

Pre Processing dei dati Modulo 1.2 Outlier Univariati I valori anomali, o Outlier, sono quei casi che in una presentano valori estremamente elevati o estremamente bassi rispetto al resto della distribuzione. Per individuare tali outlier univariati è possibile standardizzare i punteggi relativi ala variabile in esame e calcolare una distribuzione delle frequenze, solitamente si considerano come valori anomali quei punteggi che corrispondono ad un punteggio Z maggiore di 3 in valore assoluto (Tabachnick e Fidell, 1989). In ogni caso è sempre necessario considerare la distribuzione nella sua interezza, anche perchè dati infrequenti non sempre sono anche “anomali”. Per concludere, i valori anomali sono in grado di influenzare molti indicatori, come la media, la deviazione standard, l’asimmetria e la curtosi. Essi sono in grado quindi di influenzare anche gli indici di associazione tra variabili come avviene con il coefficiente di correlazione di Pearson. • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Outlier Univariati In presenza di casi anomali univariati che influenzano i risultati delle analisi è possibile utilizzare degli estimatori dei parametri che risultano meno influenzati dalla presenza ditali valori. Ad esempio, la mediana e la moda spesso possono risultare più affidabili della media. Sono inoltre disponibili alcune statistiche che risultano “robuste” alla presenza di tali valori, come ad esempio la media trimmed che viene calcolata eliminando il 5% dei casi con punteggi più elevati e più bassi. • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Outlier univariati Nel nostro esempio risulta opportuno, almeno per le variabili relative alla scala L ed alla scala F che non raggiungono i requisiti di normalità, esaminare in prima istanza la presenza di outlier univariati. Sebbene esista la possibilità di visualizzare i valori estremi, uno degli strumenti più funzionali a questo scopo risulta il Box Plot fornito da SPSS Visualizzazione dei valori anomali Relativamente a tre variabili Ottenute dalle scale di controllo Dell’MMPI-II • - Fonti bibliografiche

Analisi dei Box Plot per l’individuazione degli Outlier

Pre Processing dei dati Modulo 1.2 Outlier univariati Un primo passo per raggiungere una distribuzione adeguatamente normale nei propri dati, requisito necessario alle successive analisi, risulta quello di considerare i dati anomali come errori di misurazione e/o campionamento. In questo senso, quando questi sono pochi, può essere opportuno eliminarli dall’analisi e ricalcolare gli indici di normalità. Eliminazione dei casi anomali individuati e confronto degli indici di normalità prima e dopo tale resezione. • - Fonti bibliografiche

Analisi dei Box Plot per l’individuazione degli Outlier Outlier eliminati 2 Outlier eliminati 5

Pre Processing dei dati Modulo 1.2 Trasformazioni sui dati (Normalizzazione) Al fine di rendere normale la distribuzione di una variabile, oltre all’eliminazione quando possibili dei valori anomali, sono state proposte diverse tecniche. Alcune di esse agiscono senza alterare le proprietà metriche (es., il livello di misurazione) delle variabili originali, altre invece portano a modificazioni più consistenti di tali proprietà. Le prime risultano più adeguate in condizioni di Non-normalità “Moderata” (Valori di asimmetria e curtosi compresi tra |.5| e |1|.) Le seconde sono spesso necessarie nei casi di forte violazione della normalità (Valori di asimmetria e curtosi maggiori di |1|.) - • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Trasformazioni sui dati (Normalizzazione) L’asimmetria o semilimitazione laterale della distribuzione del carattere statistico sotto esame può essere ridotta tramite opportune trasformazioni operate direttamente sui dati. Si distinguono generalmente quattro condizioni: - Asimmetria Positiva Asimmetria Negativa Moderata Elevata Moderata Elevata Trasformazione Logaritmica o Radice Quadrata Trasformazione Logaritmica o Radice Quadrata Trasformazione in Reciproco Trasformazione in Reciproco X*= Nuova variabile *: Nell’effettuare le trasformazioni in caso di asimmetria negativa è necessario utilizzare una costante (k) di solito uguale a 1 + il valore più elevato presente nella distribuzione originale.

Pre Processing dei dati Modulo 1.2 Trasformazioni sui dati Trasformazione logaritmica sui dati grezzi di un carattere statistico distribuito in maniera quesi-normale, presentando una non-normalità moderata ed una semilimitazione a sinistra. Esempio di trasformazione dei dati Da esempio precedente per Scale L e F Riduzione di una asimmetria moderata positiva • - Fonti bibliografiche

Distribuzioni Grezze, con valori anomali e dati non trasformati Asimmetria positiva Moderata Asimmetria positiva Moderata Outliers Outliers Distribuzioni dopo eliminazione dei dati anomali e trasformazione logaritmica del punteggio.

Pre Processing dei dati Modulo 1.2 Analisi della “Linearità della relazione” Molte analisi statistiche richiedono, oltre alla normalità della distribuzione del carattere statistico sotto indagine, che le relazione tra i punteggi siano di tipo lineare. Se la relazione tra due variabili X e Y è lineare, allora la variazione nei punteggi in Y attesa in concomitantanza di una variazione nei punteggi di X è costante per tutti i valori di X. Spesso la non linearità della relazione tra due variabili e la non normalità delle distribuzioni delle stesse sono fenomeni collegati. Spesso i tentativi di “normalizzare” la distribuzione di un carattere statistico sotto esame tendono a provocare una “linearizzazione” delle relazioni che il carattere ha con le altre variabili. La linearità può essere rilevata tramite il diagramma di dispersione (Scatterplot) che rappresenta le distribuzioni congiunte delle due variabili. - • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Creazione ed analisi dello Scatterplot Esempio di analisi della linearità della relazione tra due variabili, produzione dello Scatterplot • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Normalità Multivariata La distribuzione normale multivariata rappresenta una generalizzazione della normale univariata quando il numero di variabili che vengono prese in considerazione è maggiore di 1. Considerando il caso di due variabili X e Y, se le distribuzioni dei valori di Y per ogni valore dato di X sono di forma normale, e si verifica anche il contrario, allora la distribuzione congiunta di X e Y viene definita normale bivariata. La distribuzione normale bivariata risulta essere una condizione particolarmente desiderabile almeno per due motivi: A- Questa distribuzione ha la proprietà di rendere la regressione di Y su X lineare. B- Essa determina che gli scarti quadratici delle Y per ciascuna X siano effettivamente identici (Omoschedasticità). • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Normalità Multivariata • Se abbiamo più di due variabili, l’universo determinato dalle loro distribuzioni congiunte rappresenterà una situazione più complicata, e difficilmente rappresentabile a livello grafico. Si parlerà in questo caso di Normalità Multivariata in riferimento alla assunzione che riguarda l’insieme delle variabili che vengono considerate in analisi. • Se consideriamo un insieme di p variabili, la distribuzione multivariata delle p variabili è normale se: • Tutte le distribuzioni univariate sono normali, • Le distribuzioni congiunte di tutte le coppie di variabili sono normali, • Tutte le combinazioni lineari delle variabili sono normali. • La normalità multivariata è una proprietà particolarmente rilevante. Infatti se essa viene rispettata le relazioni tra le variabili considerate sono sicuramente lineari, ed i modelli di analisi preposti a valutare gli indici di associazione, di conseguenza, affidabili. • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Normalità Multivariata Distanza di Mahalanobis Si definisce innanzi tutto la distanza generalizzata o distanza di Mahalanobis (Di2) come la distanza del vettore dei punteggi di un soggetto (Xi) dal centroide del campione (Xm), ponderata per la covarianza tra le varibili. La distanza di Mahalanobis può essere utilizzata per diagnosticare la presenza di outlier, o valori anomali, multivariati. Questi rappresentano combinazioni di punteggi delle singole variabili che risultano particolarmente “strani”, appunto “anomali” rispetto al resto dei valori delle variabili. Non si tratta quindi di casi che necessariamente presentano valori estremi su una o più variabili. • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Normalità Multivariata Q-Q Plot Se la distribuzione delle variabili è normale multivariata e il numero dei casi meno il numero delle variabili è maggiore di 25, allora i valori della distanza generalizzata seguono la distribuzione del chi quadrato. Di fatto si può sfruttare questa proprietà per costruire un test di normalità multivariata nel modo seguente: A- Si ordinano i valori Di2 per ogni soggetto dal più basso al più alto. B- Si calcola per ogni Di2il corrispondente punteggio percentile nella distribuzione χ2. C- Si costruisce il grafico dei due valori di punteggi Di2 e χ2 (Q-Q Plot), se la distribuzione è normale multivariata le due serie di punteggi formano un grafico che ha un andamento lineare. • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Normalità Multivariata Coefficinte di Curtosi Multivariata di Mardia Per esaminare l’ipotesi di normalità multivariata Mardia (1970) ha sviluppato dei coefficienti di curtosi e di asimmetria multivariata. Se la distribuzione delle p variabili è normale multivariata, e se il campione è sufficientemente ampio (almeno 50 soggetti*) il coefficiente di curtosi multivariata di Mardia dovrebbe essere minore o uguale a p(p+2). Tramite i valori della distanza di Mahalanobis è possibile calcolare questo coefficiente nel modo seguente: • - Seber, 1984

Pre Processing dei dati Modulo 1.2 Normalità Multivariata Calcolo delle distanze di Mahalanobis e produzione del Q-Q plot per il test di normalità multivariata. Calcolo del coefficiente di curtosi di Mardia. Dopo aver in precedenza testato la normalità delle distribuzioni delle scala L, F e K, si testa l’ipotesi di normalità multivariata della distribuzione congiunta delle tre variabili. • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Il Q-Q plot per la verifica della normalità bivariata - • - Fonti bibliografiche

Pre Processing dei dati - Modulo 1.2 Il Q-Q plot per la verifica della normalità bivariata - - • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Outliers Multivariati Rif. Outliers multivariati - • - Fonti bibliografiche

Pre Processing dei dati - Modulo 1.2 Outliers Multivariati - - • - Fonti bibliografiche

Pre Processing dei dati Modulo 1.2 Multicollinearità - • - Fonti bibliografiche

Pre Processing dei dati - Modulo 1.2 Multicollinearità - - • - Fonti bibliografiche

Pre Processing dei dati

Pre Processing dei dati

Presentation Transcript

Rappresentazione dei dati statistici

TRATTAMENTO DEI DATI ANALITICI

Trasformazione dei dati

Descrizione dei dati

Rappresentazione tabellare dei dati

Raccolta dei Dati

Trattamento dei dati personali

Trattamento dei dati personali

ORGANIZZAZIONE DEI DATI

Codifica dei Dati

Analisi Statistica dei Dati

Struttura dei dati panel

Interpretazione dei dati

Caratteristiche dei dati ecologici

Modifica dei dati

Back – up dei dati.

La modellizzazione dei dati

Gestione Informatica dei Dati Aziendali

Classificazione dei dati

Analisi preliminari dei dati

Rappresentazione dei dati statistici

Editing dei dati