1 / 20

Lezione B.10 Regressione e inferenza: il modello lineare

TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli. Lezione B.10 Regressione e inferenza: il modello lineare. In questa lezione. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale.

Download Presentation

Lezione B.10 Regressione e inferenza: il modello lineare

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. TQuArs – a.a. 2010/11 Tecniche quantitative per l’analisi nella ricerca sociale Giuseppe A. Micheli Lezione B.10 Regressione e inferenza: il modello lineare

  2. In questa lezione.. In questa lezione riprenderemo il modello di regressione lineare in una prospettiva inferenziale. Dopo un brevissimo cenno alla configurazione e alle ipotesi del modello lineare, ci eserciteremo a leggere nei tabulati di esercizi di regressione lineare semplice e multipla le informazioni sul segno e la significatività delle relazioni stimate.

  3. Il modello lineare e sue ipotesi Facendo scendere in campo X possiamo arricchire il modello nel seguente modo: La componente sistematica coglie la dipendenza di Y da X, mentre la componente casuale rappresenta la variabilità di Y che rimane “non spiegata” da X. Yi = µi + εi µi = f(Xi) componente sistematica εi~ N(0, σ2) errore casuale Più sinteticamente il modello può anche essere scritto nel seguente, più familiare, modo: Yi =  + βXi + εi ove si è posto f(Xi) =  + βXi, ovvero si è assunto che la dipendenza di Y da X sia di tipo lineare. • Riassumiamo le ipotesi alla base del modello: • E(εi) = 0 (gli errori casuali oscillano attorno allo 0) • Var(εi) = σ2 per ogni i (ipotesi di omoscedasticità) • Cov(εi, εj) = 0 (gli errori sono incorrelati tra di loro) • εihanno distribuzione normale Inoltre i valori xi sono considerati fissi e misurati con precisione.

  4. Stima dei parametri I parametri e β si riferiscono alla popolazione. Con i dati campionari, ricorrendo al criterio dei minimi quadrati (fatte salve le precedenti ipotesi da 1 a 3), possiamo ottenere i seguenti stimatori (il teorema di Gauss-Markov ci garantisce essere corretti e di minima varianza nella classe degli stimatori lineari non distorti): Queste formule coincidono nella sostanza con quelle già viste nella regressione descrittiva (lezione 6). La differenza è che qui quello che otteniamo non sono i parametri veri della popolazione ma loro stime. Stimati i parametri, i valori previsti dal modello saranno: Scostamenti (residui) tra osservazioni e modello: Inoltre, stimatore di σ2 :

  5. Un esempio già esplorato Riprendiamo l’esempio visto nella lezione in cui è stata introdotta la regressione in ambito descrittivo. I dati si riferivano a 10 atleti e l’interesse era quello di valutare la relazione tra età e performance nel salto in alto. Supponiamo ora che tali 10 atleti non siano tutta la nostra popolazione di interesse, ma ne costituiscano solamente un suo campione casuale semplice. Con le formule appena viste otteniamo: b=3,04 ; a=160,35 ; s2 = 7,95 I valori sono gli stessi già calcolati nella lezione 6. Ora però tali valori vanno intesi come le stime campionarie dei parametri (ignoti) della popolazione α e β. Dal punto di vista tecnico finora, dunque, nulla di nuovo. Dobbiamo però ancora trattare la parte relativa all’inferenza sui parametri…

  6. Incertezza sui parametri Concentriamo la nostra attenzione su β (misura dell’effetto di X su Y). Lo stimatore b, essendo non distorto ha valore atteso proprio pari a β. La sua varianza risulta inoltre la seguente: Tale varianza è ignota, dato che è ignoto σ2. Un suo stimatore corretto si dimostra essere: Stimatore dell’errore standard di conseguenza sarà: Nel nostro esempio: es(b) = √(7,95/18,4) = 0,657 Se oltre alle condizioni 1-3 alla base del modello, si aggiunge anche la quarta (normalità della distribuzione degli errori), si dimostra che gli stimatori a e b hanno anch’essi distribuzione normale. E’ possibile quindi agevolmente ottenere intervalli di confidenza.

  7. tn-2;0,05 es(b) tn-2;0,05 es(b) b 1,51 1,51 4,55 3,04 1,53 0 Intervalli di confidenza In particolare la seguente quantità si distribuisce come una t di student con n-2 gradi di libertà. Pertanto un intervallo di confidenza al 95% per β sarà dato da: IDC(β) = b ± tn-2;0,05 es(b) Nel nostro esempio: IDC(β) = b±t8; 0,05es(b) = 3,04±2,306·0,657 Si ottiene pertanto: Con probabilità 0,95 l’intervallo contiene l’ignoto parametro β. IDC(β) = 3,04 ± 1,51 L’intervallo [1,53 ; 4,55] non contiene lo 0: l’effetto di X su Y può quindi essere considerato significativo (al livello del 5%).

  8. Significatività dei parametri Per saggiare l’ipotesi nulla  = 0 (che corrisponde all’ipotesi che X non abbia alcun effetto su Y) contro l’ipotesi alternativa  ≠ 0, si può usare la seguente statistica test: t = b / es(b) che sotto ipotesi nulla ha distribuzione t di student con n-2 gradi di libertà (g.l.). Nel nostro esempio: t = 3,04 / 0,675 =4.63 A cui corrisponde (tavole della t di student con 8 g.l.) un p-value = 0,0017 (<0.05) Effetto significativo (a conferma di quanto già ottenuto con IDC). Come criterio generale, se il p-value (Pr > |t|) è molto basso (ad es. inferiore a 0,05) allora possiamo affermare che l’effetto di X su Y è significativamente diverso da 0. Se vale invece l’ipotesi nulla, ovvero  = 0, la migliore previsione torna ad essere la media di Y? Esatto! Per  = 0 i valori osservati (yi) possono essere adeguatamente rappresentati dal modello con sola intercetta: Yi = α + εi ; con α = µ

  9. Prova di ipotesi su modelli lineari Che significa, per una regressione lineare semplice, saggiare l’ipotesi nulla =0? Essacorrisponde all’ipotesi che X non abbia alcun effetto su Y. Se =0 la statistica t=b/es(b) sotto l’ipotesi H0 ha distribuzione t di Stu-dent con n-2 gradi di libertà. Se la statistica così ottenuta ha un valore esterno ai valori critici che corrispondono a un livello di significatività prefissato (per es. 5 o 1 permille) possiamo rifiutare l’ipotesi nulla: cioè la variabile explanans X influisce significativamente su Y. Supponiamo di estrarre un campione di 10 atleti di salto in alto per studiare le relazione che passa tra età e performance. Possiamo calcolare. Non ci interessano i calcoli intermedi (medie, varianze etc). I tabulati di un modello di regressione mi dicono che a=160,35, b=3,04 e es(b)=0,657. L’IDC al livello di significatività del 95% è: IDC(β) = 3,04 ± 1,51. L’IDC al livello di significatività del 95% non contiene quindi lo 0, dunque l’ipotesi nulla è da rigettare. In termini di test di ipotesi: t=3,04/0,675=4.63 cui corrisponde (tavole di t di Student con 8 g.l.) un p-value=0,0017<0,005: l’effetto dell’età X sulla performance Y è quindi significativo al 5 permille.

  10. Es. 1: la disuguaglianza cresce dove è bassa l’occupazione femminile? X=% donne lavoro Y=disuguaglianza Mah!

  11. Es. 2: contesti di disoccupazione spingono al suicidio? Solo nord-sud X= tasso occupazione 25-34 anni; Y=suicidi / milione ab (‘92).

  12. Es. 3: la diffusione di divorzi precorre il diffondersi delle convivenze? X=Divorzi al 1988; Y=convivenze al 2001 Ancora nord-sud..

  13. Es. 4: la diffusione dei compu-ter spiega quella dei cellulari? X= computer; Y=cellulari Tre europe differenti!

  14. Dalla regressione semplice a quella multipla • Facciamo allora un passo avanti, e domandiamoci: qual è il valore aggiunto della regressione multipla? • Ripartiamo dall’esempio sulla performance nel salto in alto. • Finora abbiamo visto due distinte regressioni semplici: • col primo abbiamo studiato la dipendenza di Y dall’età dell’atleta (X) • col secondo abbiamo studiato la relazione tra Y e metodo di salto (Z). • Ma quale differenza passa tra condurre: Rispetto alle ipotesi alla base del modello di regressione semplice, nella regressione multipla si aggiunge l’assunzione di non collinearità tra le variabili esplicative (vedi lezione 7). Due variabili sono collineari quando tra esse esiste una dipendenza lineare perfetta. Grossi problemi di stabilità della stima nascono anche quando due variabili esplicative sono tra di loro molto correlate (quasi collinearità). due distinte regressioni semplici di Y su X e di Y su Z, µi(X) =  + YX Xi µi(Z) =  + YZ Zi o invece una regressione multipla di Y su X e Z? µi(X,Z)=  + YX Xi + YZ Zi

  15. Coefficienti parziali Supponiamo di essere interessati alla dipendenza di Y da X. Con la regressione semplice misuriamo l’effetto “totale”di X su Y. Se inseriamo nel modello anche la variabile Z, l’effetto di X su Y viene ora calcolato “al netto dell’azione di Z” (ovvero: “a parità di Z”, “controllando rispetto a Z”). E’ formalmente più corretto scrivere il modello di regressione multipla nel seguente modo: µi(X,Z) =  + YX.z Xi + YZ.x Zi dove YX.z è il “coefficiente parziale” di X (ovvero l’effetto di X su Y al netto di Z); mentre YZ.x è il “coefficiente parziale” di Z (ovvero l’effetto di Z su Y al netto di X). In generale l’effetto di X su Y calcolato nella regressione semplice (YX) non coin-cide con l’effetto di X su Y calcolato nella regressione multipla (YX.z). Inoltre nella regressione multipla l’effetto di X su Y dipende dalle altre variabili inserite nel modello (YX.zè in generale diverso da YX.w ed entrambi sono diversi da YX.zw).

  16. Leggere tabulati, interpretare dati 1: da che dipende esser ricchi? Explanandum: reddito equivalente familiare mensile General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

  17. Leggere tabulati, interpretare dati 2: da che dipende essere istruiti? Explanandum: livello di scolarità dell’intervistata General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

  18. Leggere tabulati, interpretare dati 3: cosa causa disagio relazionale? Explanandum: Scala 0-10 di disagio relazionale (fiducia, rapporti, futuro..) General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

  19. Leggere tabulati, interpretare dati 4: quando usiamo psicofarmaci? Explanandum: scala 0-3 uso di psicofarmaci General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

  20. Leggere tabulati, interpretare dati 5: cosa spinge a chiacchierare? Explanandum: durata dell’intervista General Social Survey IRer Regione Lombardia anno 2000 su un migliaio di famiglie Interviste a sole donne.

More Related