1 / 26

LEZIONE A.9 La standardizzazione

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. LEZIONE A.9 La standardizzazione. In questa lezione.

Download Presentation

LEZIONE A.9 La standardizzazione

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli LEZIONE A.9 La standardizzazione

  2. In questa lezione.. • In questa lezione vedremo alcuni problemi legati a trasformazioni lineari di una variabile statistica, e in particolare vedremo una trasformazione molto utile – che chiameremo standardizzata - per comparare v.s. con medie e varianze differenti. • In sequenza vedremo: • Cosa succede alla media e alla varianza di una v.s. trasformata • Come si può ‘normalizzare’ un indicatore • Come si può ‘normalizzare’ una varianza • Cos’è un carattere ‘trasferibile’ • Come si può ‘standardizzare’ una variabile • Che limite si può dare alla frequenza di casi lontani dalla media

  3. Trasformare una variabile: stirare una molla Supponete di avere in mano un nastro a molla come questo. Spostate il nastro versode-stra. La collocazione sul piano di ogni punto del nastro si sposta sul piano in ugual misura: così pure il baricentro. Ma la lunghez-za del nastro non cambia. Anche la distanza di ogni punto dal cen-tro è insensibile alla traslazione. Provate ora a stirare la molla. La collocazione del ‘centro’ del nastro si sposterà in proporzione. Anche la distanza di ogni punto dal centro crescerà: ma in che misura?

  4. Media e varianza di una v.s. spostata o ‘stirata’ La v.s. W ha identica distribuzione di frequenza di X, ma è una trasfor-mazione lineare di X, in cui è tra-sformata l'unità di misura: W=2X. Si vede che: M(w)=2M(x); V(w)=4V(x); w=2X Anche la v.s. V ha identica distribu-zione di frequenza di X, ma è una trasformazione lineare di X, in cui è effettuata una traslazione dell’ori-gine: V=5+X. Si vede che: M(v)=5+M(x); V(v)=V(x); V=X Possiamo trarre una regola generale?

  5. Media aritmetica ‘operatore lineare’ Per M(x) valgono queste proprietà: Se Y = a + X  M(y)=a+M(x) [traslazione dell'origine] Se Y = b  X  M(y) = b  M(x) [cambiamento di unità di misura] Se Y=a+bX  M(y)=a+bM(x) [trasformazione lineare completa] Una trasformazione lineare di u-na variabile è perfettamente ri-flessa nella media aritmetica della trasformata. Si dice che la media aritmetica è un operatore lineare. Dimostrazione: «M(y) = a + b  M(x)»  Sia Y = a + b  X allora:

  6. Varianza insensibile alla traslazione ma.. «V(y) = b²  V(x) » Sia Y = a + b  X allora Anche la varianza è un operatore lineare, ma con qualche differenza di comportamento: Se Y = a + X  V(y) = V(x) [traslazione dell'origine] Se Y = b  X  V(y) = b²  V(x) [cambiamento di unità di misura] Se Y=a+bX  V(y) = b²  V(x) [trasformazione lineare completa] La varianza di una (qualunque) trasformata lineare è insensibile alla traslazione dell'origine e ri-sente in misura quadratica di un cambiamento di unità di misura.

  7. Normalizzare un indicatore La normalizzazione (o standardizzazione) di una misura è una procedura con due significati diversi tra loro connessi. Nel primo significato, un indicatore è normalizzato se è "ricondotto a norma", sterilizzando l'effetto di alcuni fattori di disturbo. Per esempio, abbiamo visto come la varianza è una misura di variabilità influenzata dall'ordine di grandezza del fenomeno osservato. Un primo, grezzo modo per ‘normalizzare’ la varianza consiste quindi nello sterilizzare l'unità di misura del fenomeno, definendo una quantità adimensionale (o numero puro) detta coefficiente di variazione: cv =  / m Tra poco vedremo una procedura più drastica di riconduzione a norma, applicata all'intera variabile statistica.

  8. Coefficiente di variazione: un esempio Dalla Survey Lombarda stimiamo che la deviazione standard dei redditi familiari a Milano è XMIL=1,85. Nei piccoli comuni la stessa misura è XPIC =1,28, assai minore. Possiamo davvero dedurne che c’è meno dispersione di redditi in provincia che non nella grande città? Non posso dirlo con certezza, perché la deviazione standard sale con l’ordine di grandezza del carattere studiato. Sappiamo infatti che: Se Y=a+bX  V(y)=b²V(x) e quindi Y= (b²V(x))=b. X E il reddito medio è più alto a Milano (mxMI=3,3438) che fuori (mxPIC=2,8025). Posso allora confrontare le deviazioni standard se le depuro dell’effetto dell’ordine di grandezza. Trovo così che: CVxMI = 1,85/3,3438 = 0,553 > CVxPIC = 1,28/2,8025 = 0,457 E’ quindi confermata la maggiore dispersione dei redditi a Milano.

  9. Coefficiente di variazione: due altri esempi Un esempio macro. Tra USA e Italia il reddito medio (non ponderato con le rispettive popolazioni) è 22135 $, la deviazione standard è 1185. Tra Egitto e Etiopia il reddito medio è 370 $, la deviazione standard è 250. La misura di dispersione tra i due paesi occidentali è quasi 5 volte superiore: possiamo dire che tra di loro la variabilità dei redditi nazionali è nettamente superiore a quella riscontrata tra i PVS? In realtà è vero proprio il contrario! Infatti CVxPSA=1185/22135=0,053 che è addirittura 13 volte inferiore a CVxPVS=250/370=0,676. Un esempio micro. Gli stipendi di tre anziani amici erano di 1000, 1500 e 2000 lire nel 1950, e le loro pensioni nel 2000 erano di 2,0 2,5 e 3,0 milioni di lire. La variabilità tra i loro redditi era aumentata o diminuita? Al 1950 le misure erano: mx1950=1500 x1950=408,25 CVx1950=0,272 Al 2000 le misure erano: mx2000=2500000, x2000=408250, CVx2000=0,163 Morale: gli stipendi sono incredibilmente cresciuti, ma alla fine le distanze tra le pensioni sono dimezzate!

  10. Normalizzare un indicatore tra zero e uno C’è un secondo modo per intendere il concetto di normalizzazione. Un indice è normalizzato se è compreso tra un minimo e un massimo convenzionale, di facile percezione. Per esempio 0  I  1 Questo rende possibili i confronti. Se per un indice I si individuano un minimo e un massimo (IminIImax), l’indice è sempre trasformabile nel suo equivalente normalizzato I*= I-Imin/Imax-Imin 0  I*  1 Esempio: Pippo si è diplomato al Liceo nel ‘94 con I1=40/60, suo fratello Pippetto pochi anni dopo con I2=65/100. Come confrontare i due risultati? I*1=I1-Imin/Imax-Imin=40-36/60-36=0,167; I*2=65-60/100-60=0,125 Han fatto schifo tutti e due, ma Pippetto (anche se 65>40) ha fatto peggio!

  11. Normalizzare la varianza È normalizzabile la varianza? Mica tanto. Infatti è vero che cresce con l’ordine di grandezza (quindi in funzione di M(x), ma non è possibile definirne un massimo, salvo che si faccia una ipotesi (talora realistica, talora no) sul fenomeno studiato e si adotti un criterio particolare. Il criterio è: “Confrontare una v.s. osservata esclusivamente con quelle altre v.s. che abbiano la stessa intensità totale T=xi ni”. x1 x2 .. xi .. xk X = n1 n2 .. ni .. nk T=xi ni e m=T/N 0T=xi ni X = N-1 1 T=xi ni e m=T/N La distribuzione comparabile Xmax a massima varianza è quella in cui (N-1) osservazioni hanno valore x=0, l’ultima ha valore xN=T

  12. Distribuzione massimante Esempio: un distretto industriale è composto di tre soli paesi, uno di 10 (mila) abitanti, uno di 20 (mila), uno di 60 (mila). La popolazione media è m=30, la varianza è 2=466,7, lo sd è =21,6. Come normalizzare 2 e ? Calcoliamo m e  per alcune varianti di X con popolazione totale costante. X = {15, 15, 60} T=90 m=30 2=450 =21,21 X = {5, 5, 80} T=90 m=30 2=1250 =35,35 Xmax = {0, 0, 90} T=90 m=30 2=1800 =42,43 Nessuna distribuzione – a parità di T – ha varianza maggiore di Xmax. Chiamiamo Xmax “distribuzione massimante”. Il rapporto tra la varianza della v.s. osservata e quella della cor-rispondente distribuzione massimante è una misura di Varianza normalizzata: 0  V* = V/Vmax  1 e 0  * =  /  max  1 Nell’esempio V* = 466,7/1800=0,259 e * =21,6/42,43=0,509 = V*.

  13. Varianza della distribuzione massimante Nell’esempio svolto c’è un parti-colare curioso. La varianza della distribuzione massimante è 2=1800 = 2 x 900 = (N-1) x m2. E’ un caso? No, è un risultato generale che possiamo anche dimostrare: 0T=xi ni Xmax Distribuzione massimante N-1 1 m= [0x(N-1)]+[Tx1]/N=T/N m2=[02x(N-1)]+[T2x1]/N=T2/N 2max = (N-1) x m2 max = (N-1) x m Ora possiamo normalizzare : 2 = /max = /((N-1)xm)= = (/m)/(N-1)=CV/(N-1) Ma allora il CV non era poi così male..

  14. Quando la distribuzione massimante ha senso Ricapitoliamo. Il massimo della varianza per caratteri trasferibili è quello che si ottiene simulando la distribuzione di massima variabilità o massimante: quella in cui (N–1) unità hanno intensità 0 del carattere e solo l'ultima unità (N–esima) concentra su di sé l'intensità totale T. Per distribuzioni a pari Intensità totale T si trova che: 0x(N–1)mx E si può quindi calcolare la deviazione standard normalizzata: Naturalmente la normalizzazione della varianza ha senso quando ha senso ancorarsi alla Intensità totale T come ‘funzione obiettivo’, e immaginare di ‘trasferire’ parti dell’intensità totale T da una unità di osservazione all’altra. Ha senso, insomma, per caratteri trasferibili. Trasferibile è ogni carattere quantitativo non negativo per cui abbia senso variare la distribuzione di frequenza osservata con-servando comunque immutata T.

  15. Quali caratteri sono trasferibili • Quali caratteri non sono trasferibili? Per quali caratteri l’intensità totale non ha senso? Per esempio: • Stature dei coscritti alla visita di leva • Q.I. di una classe • Numero di denti cariati rilevati ad un ambulatorio • Struttura per età di una popolazione di immigrati • Distribuzione dei voti a un test di ammissione.. • Quali caratteri sono trasferibili? Per quali caratteri l’intensità totale ha un senso? Per esempio: • Redditi pro capite (PIL) • Popolazione per province (Popo-lazione di una regione/nazione) • Tempo a disposizione per Banca del tempo (‘capitale’ della Banca) • Ore di lezione per docente (monte ore di didattica) • Metri cubi di acqua erogata a ogni abitante (totale acqua erogata).. Ma attenzione: anche se normalizzare la varianza vale in senso stretto solo per caratteri trasferibili, la si usa più in generale (almeno per caratteri non negativi). E’ infatti troppo comoda per comparare!

  16. Distribuzione massimante vincolata Certo che la distribuzione massimante – ipotizzando che N-1 unità siano ridotte a zero e l’ultima ‘arraffi tutto il piatto’ – non è molto realistica! Noi ce la teniamo stretta perché la sua varianza è davvero semplice. Ma potremmo cercare una più realistica distribuzione massimante ‘vincolata’, in cui cioè le modalità si polarizzano tra le due modalità minima (l) e massima (L) effettivamente osservate: l  xiL. In questo caso, per mantenere il vincolo della costanza di T, si ricavano le frequenze della distribuzione massimante e Var(X”) diviene Var(X") = (L – mx") x (mx" – l) Se poi l = 0 e L = N  m = T si ritorna a:

  17. ‘Ricondurre a norma’ una variabile Fin qui abbiamo imparato a ‘normalizzare’ un singolo indicatore di sintesi di una v.s., come la varianza. Ma possiamo ora radicalizzare l’operazione. Una v.s. è "standardizzata" se è stata "ricondotta a norma", steri-lizzando l'influenza di due fattori di disturbo: l'ordine di gran-dezza e l'unità di misura/dispersione. Per esempio, due distribuzioni di frequenza f(x) e f(y), apparentemente diverse, possono rivelarsi simili una volta che si prescinda dall'ordine di grandezza e dall'unità di misura. La standardizzazione è dunque un'operazione che consente la com-parazione della forma di diverse distribuzioni di frequenza, prescindendo da ordine di grandezza e dispersione. Sappiamo che la media misura l’ordine di grandezza di una v.s. quantitativa, e che la deviazione stan-dard X misura l’unità standard di dispersione intorno alla media. Chiamiamo standardizzazione di una v.s. X l'affiancamento alla sua legge di distribuzione di una trasformata Z:

  18. Una trasformata molto dotata Si dimostra che, qualunque sia la v.s. X, la sua standardizzata Z = (X – mx) /x ha sempre media nulla e varianza unitaria. «Varz=1». Sia allora: «mz=0». Sia allora:

  19. Come standardizzare una variabile Attenti! Se la v.s. è per classi le frequenze non cambiano, ma le densità di frequenza sì. Perché? Standardizzare una variabile è operazione sem-plice. Basta sostituire alle modalità xi le corri-spondenti modalità trasformate zi =(xi–mx)/X. Ad esse si affiancano le stesse numerosità (e frequenze) che non vengono toccate. Potete verificare che m(x) è nulla, e che V(X), calcolata come (zi2-0)fi=zi2fi, è proprio 1.

  20. Una verifica La nuova v.s. ‘standardizzata’ Z è ora ‘centrata’ sul baricentro Z=0, e ha media nulla e varianza (e sd) unitaria: M(z)=0; V(z)=Z=1

  21. Normalizzare , standardizzare X • Normalizzare un indicatore sintetico di una v.s. (per es. calcolando E* o CV) permette di confrontare tra loro popolazioni eterogenee nel complesso. • Standardizzare una v.s. invece consente di confrontare la posizione di distinte unità all’interno di due o più variabili (caratteri) distinti. Consente di rispondere a esigenze di confronto e a esigenze di associazione: • Confronto: Tizio ha avuto 50/60 al test intermedio, 52/60 al test finale. Quando è andato meglio, tenuto conto dell’esito di tutti gli esaminati nel complesso? • Associazione: alcuni hanno performances basse ai test. Avrà qualcosa a che fare con il loro basso tasso di tiroidina nel sangue? Nel primo caso l’obiettivo è micro: il bersaglio da valutare è la singola unità di analisi. Nel secondo caso invece lo scopo è, sì, spiegare la defaillance di Caio (obiettivo micro), ma così facendo si punta ad associare due variabili tra loro: performance e capacità fisica di concentrazione (obiettivo macro).

  22. Un esempio Popolazione (x000) per età–Piemonte,1979 Popolazione (x000) per età - Campania Se xP=25 zP=(25-38,5)/22,5=-0,60 Se xC=20 zC=(20-32)/22= -0,55 Il 25enne P ha età ‘relativamente’ minore DOMANDA: In Piemonte l’età media è mP=38,5 e P=22,5. In Campania mP=32 e P=22. E‘ più giovane un 25enne piemontese o un 20enne campano?

  23. Un secondo esempio mxMI=3,3438 xMI=1,85 mxPIC=2,8025 xPIC=1,28 Esempio: Mario Rossi, abitante a Milano, ha 12(mila) euro di entrate mensili, Paolo Verdi, di Misinto, ha solo 9(mila) euro. Chi è più ricco, nel proprio contesto? Se xiMI=12 ziMI=(12-3,344)/1,85=4,68 Se xiPI=9  ziPI=(9-2,802)/1,28=4,84 Dunque, benché Mario Rossi abbia entrate del 33% superiori a quelle di Paolo Verdi, quest’ultimo possiede un reddito ‘standardizzato’ maggio-re, se depurato dell’ordine di gran-dezza e della dispersione del proprio sottogruppo.

  24. Quanto possono pesare le code di una v.s.? Torniamo alla distribuzione dei redditi dei piccoli comuni della provincia di Milano (cap. 3). Solo il 4,4% delle famiglie in-tervistate (28 su 628) oltre-passa una soglia di ricchezza che possiamo situare a m+2 [2,8+(2x1,28)=5,36]. Ma potremmo pensare a una distribuzione con un peso molto maggiore sulle code, cioè oltre le colonne d’Ercole di m+2 o m+3 ? Supponiamo di omaggiare 50 delle 123 famiglie con reddito 2,4-2,8, dando loro 7,4(mila) euro in più. Ora esse entrano nell’ultima classe. Sopra i 5,36 euro troviamo ora 28+50=78 famiglie, cioè il 12,4%. Ma… In realtà lo spostamento sulle code è solo apparente: infatti la nuova distri-buzione (potete calcolarla) ha media m=3,4 (più alta) e =2,33 (quasi il doppio), così che ora le colonne d’Er-cole si spostano a 8,06. Infatti: m+2=3,4+(2x2,33)=8,06 Ora sopra la soglia stanno so-lo in 53, l’8,4%! Blu = Prima Rosso=Dopo m+2 prima m+2 dopo

  25. (m±k)come ‘colonne d’Ercole’ Al crescere della dispersione intorno alla media, cresce anche la varianza: più di tanto quindi non aumenta il peso delle osservazioni che si situano al di fuori di una sorta di ‘colonne d’Ercole’ che delimitano la regione compresa tra (m-2) e (m+2), oppure tra (m-3) e (m+3) o anche più. Ma quanto possono pesare (come frequenza) le osservazioni che cadono al di fuori delle colonne? E’ una domanda importante, perché fuori di queste colonne sta la regione dei casi anomali (chiamiamola regione di rifiuto), e perché – se dobbiamo fare una indagine su una popolazione e consideriamo un range definito mediante m e  – abbiamo comunque interesse a inglobare una % la più consistente possibile.. Sarebbe bello avere la certezza che al di fuori di una certa soglia la frequenza dei casi osser-vati non superi un tetto, ovvero, se ci suona meglio, che entro una regione data intorno a m(x) stia almeno una certa % minima di casi… m m+k m-k

  26. Il teorema di Cebicev Freq (|X-m|<k)= 1–(1/k2) Se di una v.s. conosciamo solo m e  e non l’intera distribuzione non possia-mo certo definire la frequenza di casi osservati in un certo intervallo centra-to sulla media, Freq(m-k<X<m+k): Freq (|X-m|<k)= ? Né posso sapere qual è la frequenza di osservare casi al di fuori dello stesso intervallo, Freq (|X-m|>k). Ma una informazione minimale ci viene dal teorema di Cebicev: k Data una v.s. X di cui conosciamo m e , qualunque sia la forma della distribuzione, la frequenza di osservare unità comprese in un intorno della media di ampiezza pari a 2k non può essere inferiore a 1-(1/k2) Per es. entro ±2 sta almeno il 75% dei casi (fuori delle colonne non più del 25%). Entro ±4,5 sta almeno il 95% dei casi (e fuori non più del 5% dei casi). Eccetera…

More Related