1 / 73

MODELLO DI REGRESSIONE LINEARE MULTIPLA

MODELLO DI REGRESSIONE LINEARE MULTIPLA. Il problema Specificazione del modello Le assunzioni Stimatori OLS e proprietà R 2 , variabilità totale , spiegata , residua Previsione Variabili dummy Specificazione del modello Violazioni delle ipotesi del modello. 1. IL PROBLEMA.

salena
Download Presentation

MODELLO DI REGRESSIONE LINEARE MULTIPLA

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MODELLO DI REGRESSIONE LINEARE MULTIPLA Il problema Specificazione del modello Le assunzioni Stimatori OLS e proprietà R2 , variabilità totale , spiegata , residua Previsione Variabili dummy Specificazione del modello Violazioni delle ipotesi del modello

  2. 1. IL PROBLEMA • Ricerca di un modello matematico in grado di esprimere la relazione esistente tra una variabile di risposta y (quantitativa) e ( ad esempio) k variabili esplicative • Si tratta di una relazione asimmetrica del tipo Nel caso del modello di regr.lineare multipla abbiamo che: che geometricamente corrisponde ad un iperpiano a k dimensioni • Perché si studia tale modello • facilità con cui può essere interpretato un iperpiano a k dimensioni • Facilità di stima dei parametri incogniti bj ( j = 1…k) Nella realtà studiamo un modello del tipo Componente componente sistematica casuale

  3. 2. IL MODELLO In forma matriciale dove : vettore (n x 1) di osservazioni sulla variabile dipendente : matrice (n x k) di osservazioni su k regressori : vettore (k x 1) di parametri incogniti : vettore (n x 1) di disturbi stocastici

  4. Le matrici e i vettori sono così definiti N.B. La matrice X ha la prima colonna unitaria nel caso in cui si consideri un modello con intercetta b1 nel sistema di riferimento multidimensionale

  5. 3. LE ASSUNZIONI DEL MODELLO • Esiste legame lineare tra variabile dipendente e regressori • Le variabili sono tutte osservabili • I coefficienti bi non sono v.c. • I regressori X sono non stocastici • Il termine u non è osservabile 7) le ui sono omoschedastiche ed incorrelate • X ha rango pieno rank (X) = k condizione necessaria • hp aggiuntiva da utilizzare nell’analisi inferenziale

  6. 4. STIMATORE OLS y = Xb + u Si cercherà quel vettore che minimizza gli scarti al quadrato: dove Xi è la riga i-esima di X In forma matriciale = perché scalare (1)

  7. perché è uno scalaredalla (1) si ottienepre-moltiplicando ambo i membriperché rank (X’X) = rank (X) = kX’X è a rango pieno ovvero invertibilestimatore OLS di b

  8. CARATTERISTICHE STIMATORE OLS Teorema di Gauss-Markov è uno stimatore di tipo BLUE Best Linear Unbiased Estimator ovvero ha varianza minima nella classe degli stimatori Lineari e Corretti La matrice è formata da elementi costanti per cui è una trasformazione lineare di y . 2. È uno stimatore corretto Inoltre:

  9. 3. Si consideri più in dettaglio Pertanto la varianza di ogni parametro si desume prendendo il corrispondente valore sulla diagonale principale della , moltiplicato per :

  10. Definiamo uno stimatore alternativo lineare e corretto dove C è una matrice (n x k) ma Pertanto la è la minima nella classe degli stimatori lineari e corretti, e risulta provato il teorema di Gauss-Markov .

  11. STIMA DI MX è simmetrica e idempotente, cioè: 1. 2. Da queste proprietà di MX si ottiene perché scalare tr(ABC)= tr(BCA)= tr(BAC)

  12. è uno stimatore corretto ESEMPIO (Greene p.200) i : 1960 … 1986 , n = 27 Gi= consumo di benzina in $Pgi = indice dei prezzi benzinaYi= reddito pro-capite in $Pqi = indice dei prezzi auto nuove Se definiamo

  13. RICAPITOLANDO Fino ad ora nessuna ipotesi è stata posta per la distribuzione degli errori nel problema della stima. Aggiungiamo :

  14. TEST PER LA VERIFICA DI IPOTESI Dal teorema di GAUSS-MARKOV : Vogliamo testare Ovvero vogliamo verificare se il regressore Xi è effettivamente sulla variabile dipendente Y. Nel caso (improbabile) che sia nota s2 la statistica test è: Sotto si distribuisce come una normale standardizzata.

  15. Se il valore cade all’esterno dell’intervallo di confidenza, per esempio al 95%, della N(0,1) • rifiutiamo H0 ed il parametro bi sarà “significativamente” diverso da zero; altrimenti non rifiutiamo H0 e concludiamo che il parametro bi non sarà “significativo” • In generale per un sistema di ipotesi H0 : bi =c contro H0 : bic rifiuto, al livello 100e% di significatività, quando

  16. QUANDO s2 NON E’ NOTA • Utilizziamo la sua stima • In questo caso la statistica test è • dove • è l’elemento generico di posto ii nella diagonale della (X’X) • Le ipotesi su bi possono essere verificate sostituendo i valori nella statistica test e controllando poi che la statistica superi o meno i valori della regione critica della distribuzione tn-k .

  17. Quindi per verificare la significatività di bi procederò nel seguente modo: H0 : bi =0 contro H1 : bi0 Statistica test: Che sotto H0 si distribuisce come una t(n-k). Pertanto fissato  se il valore della statistica test cade all’esterno dell’intervallo di confidenza Rifiuto H0 di non significatività del parametro, altrimenti non rifiuto H0 e concludo che il parametro non è significativo.

  18. 5. ADATTAMENTO DEL MODELLO Come nel caso del modello di regressione semplice, il coefficiente di determinazione rappresenta la proporzione di variabilità totale spiegata dal modello, ovvero una misura dell’adattabilità del modello ai dati osservati. La formula per esprimere il coefficiente è analoga a quella dell regressione semplice, solo che in questo caso per variabilità spiegata dal modello si intende la variabilità spiegata dall’insieme dei regressori

  19. § ΣTSS, total sum of squares: somma totale dei quadrati degli scarti della variabile dipendente rispetto alla media §RSS, residual sum of sqares:somma dei quadrati residua o non spiegata dal modello §ESS, explained sum of squares: somma dei quadrati spiegata dal modello Alternativamente si può scrivere:

  20. Il coefficiente di determinazione è un indicatore del legame lineare tra Y e i regressori. • Ha però un difetto: • Esso può aumentare anche se viene aggiunto un regressore anche se non “spiega” y. • Se dividiamo le devianze per i gradi di libertà andiamo a pesare il contributo a R2 di ogni regressore

  21. TABELLA ANOVA

  22. Per valutare la significatività del modello si ricorre a: • H1 : almeno uno dei bi0 • Si costruisce la statistica test F • Si individua il quantile 95% o il 99% • della distribuzione F(k-1),(n-k) • Se si rifiuta H0 • ovvero si accetta la significatività congiunta di tutte le variabili esplicative.

  23. APPLICAZIONE (calcolo non matriciali) n = 12 k = 3 Facendo riferimento ai valori Determinare il vettore di stime OLS

  24. Se consideriamo il modello in forma di scarti dalle medie Dove

  25. da cui

  26. MULTIPLE REGRESSIONdependent variable : Price Var-Covar matrix of Regression Coefficients (B) Below diagonal : Covariance . Above : Correlation FLR ST FP BDR RMS FLR 1.116E-05 .06523 -.02657 .01127 -.41096 ST 5.112E-04 5.50163 .06414 -.03717 -.08660 FP -2.529E-04 .42872 8.11969 .00430 -.06912 BDR 7.452E-05 -.17250 .02423 3.91444 -.83394 RMS -.00230 -.33964 -.32930 -2.75873 2.79561 ----------------------Variables in the Equation----------------------------- Variable B SE B 95%Conf. Intrvl B Beta FLR .019124 .003341 .012155 .026092 .696273 ST 11.253185 2.345555 6.360443 16.145926 .404586 FP 10.295264 2.849507 4.351296 16.239232 .301084 BDR -7.826966 1.978493 -11.954030 -3.699901 -.812218 RMS 4.863990 1.672008 1.376242 8.351738 .658351 Const. 24.172544 4.903762 13.943476 34.401612 ----------------in----------------- Variable T Sig T FLR 5.724 .0000 ST 4.798 .0001 FP 3.613 .0017 BDR -3.956 .0008 RMS 2.909 .0087 (Const.) 4.929 .0001 End Block Number 1 PIN=.050 Limits reached PRICE=24.17+0.019*FLR +11.253*ST+10.295*FP-7.827*BDR+ +4.864*RMR=24.17+0.019*(100)+11.253*(1)+10.295*(0)- -7.827*(3)+4.864*(6)=43.026 (prezzo stimato)

  27. RIPRENDIAMO L’ESERCIZIO (Applicazione lucidi precedenti) ( F0.01 , 2 , 9 = 8.02) Ricordiamo: n = 12 k = 3 con intercetta 2 var. esplicative in forma di scarti valore empirico di F Si rifiuta H0 con un livello di significatività del 99%F empirico = 51.75 >F0.01,2,9 = 8.02

  28. Se avessimo voluto testare Ovvero la significatività di X2 (t99.9 = 2.82) valore empirico di t Anche adesso rifiutiamo H0il regressore X2 è significativo

  29. 6. PROBLEMI DI PREVISIONE Si vuole prevedere il valore di Yn+1 per un insieme di valori X non osservati come: E’ possibile fare una previsione puntuale o stimare un intervallo di previsioni. Utilizzando le proprietà BLUE di avremo il PREVISORE PUNTUALE sarà BLUFF Best Linear Unbiased Forecasting Function

  30. Per ottenere un intervallo di previsione è necessario individuare la distribuzione di Quindi una stima intervallare con un livello fiduciario del 100(1-e)% :

  31. APPLICAZIONE Voglio prevedere Y dato X= X0. Per calcolare l’intervallo devo determinare Infatti .

  32. L’intervallo fiduciario sarà

  33. A parità di dati osservati l’intervallo sarà tanto più largo quanto più X0 è distante da

  34. 7. CENNI SULLE VARIABILI DUMMY(Variabili di comodo) Fino ad ora abbiamo assunto che nella equazione generale Y = Xb + u Le variabili X siano variabili cardinali date dalla teoria economica. E’ possibile introdurre variabili cosiddette “di comodo” che riescano a rappresentare diversi fattori : EFFETTI TEMPORALI EFFETTI SPAZIALI VARIABILI QUALITATIVE

  35. È possibile che un modello economico possa subire mutamenti strutturali : FUNZIONE DI CONSUMO Tempo di guerra Tempo di pace Si ipotizza comunque che la propensione marginale al consumo rimanga invariata in entrambi i periodi

  36. Invece di considerare i due modelli separatamente (stime meno precise) vengono uniti in una sola relazione Dove X1 e X2 sono variabili dummy : La matrice b dei coefficienti sarà e la matrice dei dati

  37. La trappola delle variabili di comodo Quando utilizziamo le variabili dummy è necessario fare attenzione a come viene costruito il modello, per non rendere la matrice (X’X) singolare . Infatti se nel modello precedente lasciavamo una intercetta : Abbiamo che le 4 colonne di X sono linearmente dipendenti (X’X) non è invertibile

  38. Volendo utilizzare una regressione con intercetta si utilizzerà così solo una dummy : = PMC in entrambi i periodi a1 = g1 = intercetta anni di guerra a2 = g1 + g2 = intercetta anni di pace a1 – a2 = g2 = differenza tra l’intercetta del periodo guerra e pace Cambiamento di coefficiente angolare b2 – b1 = differenza propensione marginale al consumo nei due periodi

  39. APPLICAZIONE (p.255 Maddala) Y = b1 + b2SVA + u Y = km / litro SVA = Stima Vita Auto in anni W = peso in Kg

  40. 8. SPECIFICAZIONE DEL MODELLO • In ogni studio econometrico, la scelta del modello è la prima fase del lavoro. Gli aspetti fondamentali sono: • La scelta della forma funzionale • La scelta dei regressori • La verica sulle assunzioni del modello.

  41. La scelta della forma funzionale • Abbiamo parlato di modelli di regressione lineari, intendendo lineari nei parametri, ovvero anche di quei modelli che possono essere resi lineari tramite una opportuna trasformazione delle variabili. Ad esempio si consideri la funzione di produzione Cobb- Douglas (Y produzione, L lavoro, K capitale: • Y=L^K^ • Potrebbe sembrare non lineare, tuttavia dopo aver applicato la trasformazione logaritmica otteniamo: • Ln(Y)=ln()+ ln(L)+ ln(K) • Il modello così trasformato è lineare nei parametri e può essere facilmente trattato ed interpretato.

  42. Esistono forme di modelli che risultano lineari nei parametri, ma sui quali fare attenzione soprattutto in fase di interpretazione. Modelli polinomiali: consideriamo un esempio. In microeconomia si studiano funzioni di produzione, se consideriamo la relazione tra prodotto medio ottenuto da aziende produttrici di materiale elettrico (AP: average product) e l’input (I) necessario alla produzione AP

  43. È evidente che la relazione non è costante e quindi non può essere rappresentata da un modello “linearenella variabili”. La relazione può essere espressa da un polinomio: Questa forma funzionale ha una forma non lineare ma risulta ancora un modello di regressione lineare essendo lineare nei parametri. Tali parametri si stimano con OLS e gli stimatori hanno tutte le “buone” proprietà; ma attenzione all’interpreatazione! I parametri che si stimano non sono di per se’ le pendenze, che invece sono date da E pertanto cambia per ogni valori di I con i parametri  e .

  44. Modelli con interazioni: quando in un modello si inserisce ilprodotto tra due variabili esplicative (interazione) l’effeto che si ottiene è quello di alterare la relazione di ognuna di esse con la variabile dipendente del modello. Per capire l’effetto consideriamo un esempio: studiamo l’effetto di reddito (Y) ed età (AGE) sul consumo di pizza C, supponiamo di avere i dati su un campione di individui con età superiore a 17 anni. Il modello senza interazione: C=+ AGE+ Y+e dE(C)/dAGE=  per qualsiasi livello di reddito la spesa attesa per pizza varia di  per un incremento di un anno di età (si presume <0). dE(C)/dY=  per qualsiasi età la spesa attesa per pizza varia di  per un incremento di un euro di reddito (si presume >0).

  45. In realtà sembrerebbe più ragionevole pensare che da una certa età in poi, con il crescere dell’età, la propensione marginale a spendere in pizza diminuisca. Siamo cioè nel caso in cui l’effetto di una variabile è modificato da un’altra. Per tenere conto di ciò il modello che dobbiamo specificare è il seguente: C=+ AGE+ Y+(AGE*Y)+e Gli effetti di Y e AGE sono: dE(C)/dAGE=  + Y al crescere dell’età ci si aspetta che la spesa pe pizza si riduca, inoltre siccome presumibilmente <0, maggiore è il reddito, maggiore è la riduzione della spesa per pizza. dE(C)/dY=  + AGE la propensione marginale a spendere in pizza dipende da AGE, quindi la propensione diminuisce sempre più al crescere dell’età.

  46. b. La scelta dei regressori • Nella scelta delle variabili esplicative di un modello di regressione, si cerca di seguire i principi esistenti sull’argomento trattato, la logica e l’esperienza.Tuttavia può accadere che nella scelta si siano omesse importanti variabili o inserite variabili irrilevanti, vediamo quali problemi si incontrano in questi casi. • Variabili rilevanti omesse: è come introdurre restrizioni (parametro=0) non vere sul modello. La stima OLS dei restanti parametri del modello risulta generalmente distorta, inoltre gli standard error di tali parametri sono sottostimati. Il caso in cui gli stimatori OLS non sono distorti si ha quando le variabili omesse sono incorrelate con le variabili inserite. Per realizzare che alcune variabili rilevanti del modello sono state omesse si deve

  47. proprio fare attenzione a segni o valori dei coefficienti inaspettati. Si potrebbe pensare che per ovviare a questo problema il ricercatore dovrebbe inserire nel modello tutte le variabili che ha a disposizione; in questo modo tuttavia si potrebbe complicare il modello eccessivamente ed inoltre introdurre variabili irrilevanti. • Variabili irrilevanti inserite: gli stimatori OLS che si ottengono sono corretti, tuttavia la varianza degli stimatori dei parametri relativi alle variabili “buone” risulta maggiore di quella che avremmo ottenuto specificando il modello correttamente. Il motivo di questa sovrastima è legato al fatto che il Teorema di Gauss Markov dice che lo stimatore b.l.u.e. è lo stimatore OLS relaivo ad un modello correttamente specificato.

More Related