1 / 25

Departamento de Informática Universidad Técnica Federico Santa María

Econometría. Capitulo III. Departamento de Informática Universidad Técnica Federico Santa María. Modelo de Regresión General. La variable de respuesta “ y” depende de muchas variables x 1 , x 2 ,..., x n , aunque algunas de estas son no observables.

ince
Download Presentation

Departamento de Informática Universidad Técnica Federico Santa María

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Econometría Capitulo III Departamento de Informática Universidad Técnica Federico Santa María

  2. Modelo de Regresión General. La variable de respuesta “y” depende de muchas variables x1, x2,...,xn , aunque algunas de estas son no observables. El modelo de regresión pretende develar efecto de las variables explicativas más importantes y representa las restantes mediante una v.a. la perturbación. Es decir: Suponga que en el rango de interés, la función f admite una aproximación lineal: En tal caso Ejemplo • Modelo para predecir el alquiler de viviendas en función de sus características físicas, su situación, etc., como parte de un estudio para calibrar el efecto de control de alquileres. Héctor Allende O. 2

  3. Se hacen las siguientes hipótesis sobre la distribución de las variables: -Para cada conjunto fijo de las x, la distribución de y es normal Las variables yi son independientes entre si. -El no de variables explicativas es menor que el nº de observaciones. -Las x’s son realmente distintas y no existen entre ellas relaciones lineales exactas. Luego Donde cada coeficiente j mide el efecto marginal sobre la respuesta de un aumento unitario en xj. i: perturbación aleatoria ; i  N[0, 2],  i=1,...,n. Var[i]= 2=cte,  i=1,...,n. ; E[i i]=0, si ij Héctor Allende O. 3

  4. 2.1 Estimación de Parámetros. Sea ; j=1,...,n y x0=1; y sea Bajo el supuesto de normalidad de la variable aleatoria y se sabe que Derivando con respecto a 0 y a j, se obtiene las siguientes ecuaciones notación matricial: Como de hipótesis X’X no es singular se tiene que Héctor Allende O. 4

  5. Notación de Yule. El subíndice 1 denota la variable y. El subíndice 2 denota la variable x2. El subíndice 3 denota la variable x3. 1.23 : intercepto, medida del efecto promedio de y cuando x2=x3=0. 12.3 : coeficiente de regresión parcial, mide el cambio en el valormedio de y por cambio de unidad en x2 cuando x3 =constante. 13.2 : coeficiente de regresión parcial, mide el cambio en E[y / x2, x3] con respecto a x3 cuando x2=constante. Ejemplo: Los siguientes datos muestran el indicador global y, el número de automóviles por mil habitantes (x1) y el número de teléfonos por mil habitantes (x2) en ocho Regiones del país. Héctor Allende O. 5

  6. con Resolviendo la ecuación matricial se obtiene: Héctor Allende O. 6

  7. 2.2 Interpretación geométrica. Considere los vectores de Rn ; 1, X1, X2,...,Xk que forman las columnas de la matriz de diseño X. El objetivo de la estimación es determinar , como CL de X i.e. está contenido en el subespacio generado por los vectores 1, X1, X2,...,Xk El criterio de mínimos cuadrados, impone que el norma del vector sea mínima. 1, X1, X2,...,Xk Del teorema de proyección se tiene que: Es decir Héctor Allende O. 7

  8. Por lo tanto Siendo V la matriz de proyeción (simétrica e idempotente). Vt = V y V2 = V Esta matriz juega un rol importante en la etapa de diagnóstico. Héctor Allende O. 8

  9. Conclusiones. • Cualquier coeficiente de regresión estimado ; puede interpretarse como la pendiente de la recta de regresión de los residuos de una regresión y respecto a todas las otras variables ( parte de y no explicada por el resto de las x) con la contribución diferencial de xi. • El coeficiente de regresión ; tiene que interpretarse como el efecto diferencial de la variable xi, eliminando los efectos de las otras variables explicativas. • El efecto sobre los coeficientes de regresión de excluír las variables relevantes para explicar y, es distinto cuando las variables excluídas son independientes de las excluídas que cuando no lo son: en el primer caso no afectarán a los coeficientes , pero en el segundo pueden distorsionarlos apreciablemente. Héctor Allende O. 9

  10. 2.3 Propiedades de los estimadores . 2.3.1 Esperanza. Sea: Se puede demostrar que: Luego, 2.3.1 Covarianzas. Sea Se puede demostrar que: Llamando qij a los elementos de la matriz , se concluye que:  La matriz X’X en general no es diagonal, por lo tanto, su inversa tampoco lo será y los coeficientes no serán independientes al no tener covarianzas nulas. Héctor Allende O. 10

  11. 2.4 El Teorema de Gauss-Markov. El teorema de Gauss-Markov se considera el fundamento teórico principal del método de mínimos cuadrados en modelos lineales y establece que si las siguientes hipótesis son ciertas: • Todos los valores de la variable aleatoria dependiente están generados por el modelo lineal: • Las perturbaciones ui son no correlacionadas. • Todas las perturbaciones tienen la misma varianza. • Las perturbaciones son independientes de las v.a. x. • Las variablesxse obtienen sin errores de medida. • Se quieren estimadores insesgados (centrados) que sean funciones lineales de y. • Se define como estimador óptimo el insesgado de varianza mínima. Entonces: Gauss-Markov aseguran que los estimadores mínimo cuadráticos son “óptimos” en el sentido restringido dado por f) - g), independiente de la distribución de U. Héctor Allende O. 11

  12. 2.5 Estimación de la Varianza. El modelo de regresión múltiple quedará especificado al estimar  y la varianza 2 de la perturbación V es una matriz idempotente, luego (I-V) también lo es. La expresión es una forma cuadrática de variables aleatorias normales N(0,2) e independientes. Luego,  Como (I-V) proyecta a Y sobre el complemento ortogonal al espacio definido por X, tendrá rango n-k-1.  Finalmente, el estimador insesgado para 2, llamado varianza residual es : Héctor Allende O. 12

  13. 2.6 Intervalos de Confianza y Pruebas de Hipótesis. 2.6.1 Intervalos de confianza Si se verifica que y son independientes, entonces  Luego, un intervalo de confianza para i de nivel  =1- Pruebas o contrastes. Se desea contrastar que la vriable aleatoria tiene media . El test se realiza basado en el estadístico: siendo  Héctor Allende O. 13

  14. Una prueba importante es Bajo H0 Rechazandosé H0 para t0 > c (valor crítico). 2.6.2 Regiones de confianza para conjuntos de coeficientes. Como los coeficientes son dependientes, Los intervalos de confianza individuales pueden dar una imagen errónea de sus valores conjuntos. Sea  Luego, la región de confianza de nivel (1-) se obtiene calculando un valor crítico de la tabla F: . Entonces, el elipsoide confidencial contendrá aquellos valores  tales que: Héctor Allende O. 14

  15. 2.6.3 Contrastes para grupos de coeficientes. Fundamentos: sea  a) Contraste Estadístico:  Donde M es la matriz de covarianza de . Si M = 2A con A conocida y 2 desconocida. Entonces la F habitual es: b) Contraste para grupos i’s. Estadístico :  Ya que los r coeficientes  , siendo la sub-matriz de asociada a las variables. Héctor Allende O. 15

  16. Intervalos de confianza para la varianza. Un intervalo de confianza de nivel  =1- para 2 es: Para intervalos de confianza de una cola: Héctor Allende O. 16

  17. 2.7 Contraste de regresión. El contraste de regresión para coeficientes individuales. Estadística  t(n-k-1)gl. Usando ANDEVA. VE(k): Variación explicada por el modelo completo. VE(k-1): Variación explicada por el modelo sin xh.  VE = VE(k)-VE(k-1) Si h=0, VE depende solo del error experimental. Luego, una estadística Héctor Allende O. 17

  18. El contraste de regresión para grupos de coeficientes. Sea el vector de coeficientes que no incluye a la componente Descomposición de la varianza. Por Pitágoras: Tabla de ANDEVA. Héctor Allende O. 18

  19. El contraste de regresión establece que la VE es significativamente mayor que VNE. Bajo H0,  2.8 Correlación en Regresión Múltiple. 2.8.1 El coeficiente de determinación. Es una medida descriptiva global del ajuste de un modelo: Al valor R se le denomina coeficiente de correlación múltiple. Observaciones. • Desde un punto de vista estricta la correlación se define solo para v.a., al ser X variables fijas el nombre no es totalmente correcto. • R2 aumenta cuando k aumenta. • R2 es muy sensible con respecto a la formulación del modelo y a la elección de la variable dependiente “y”. Héctor Allende O. 19

  20. 2.8.2 El coeficiente de determinación corregido. Para evitar que R2 aumente cuando k aumenta, se define un R2-corregido como: Donde se verifica: 1) 2) . 2.8.3 R2 y el Test de F Regresión. Una forma alternativa para contrastar la hipótesis de que todos los coeficiente de regresión son cero es: Mientras Luego, el contraste F de regresión puede escribirse: Héctor Allende O. 20

  21. 2.8.4 Correlación Parcial. Dado un conjunto de variables , el coeficiente de correlación parcial entre dos de ellas, algún xiy xj, es una medida adimensional de su relación lineal, cuando se eliminan de ambas los efectos debidos al resto de las variables. Definición: Consideremos k regresores Entonces el coeficiente de correlación parcial entre x1y x2 se define como el coeficiente de correlación Lineal de Pearson entre x1 ,x2. Es decir es el coeficiente del modelo Donde y son los residuos de la regresión múltiple de x1y x2 con respecto al resto de las variables de control . Héctor Allende O. 21

  22. Al estar los residuos depurados de los efectos de las restantes variables, el representa la relación entre x1y x2 que no pueden explicarse por las variables restantes. El coeficiente de correlación parcial entre la variables de respuesta y un regresor xi (notación: ) se obtiene fácilmente a partir de la estadística “t” ; Entonces 2.9 Regresión con variables ortogonales. Es un caso especial de regresión múltiple donde todas las variables explicativas satisfacen Héctor Allende O. 22

  23. 2.10 Predicción. 2.10.1 Predicción del valor medio. La predicción del valor medio de la respuesta para ciertsos valores concretos de las variables explicativas será: Intervalo de confianza para mh. Un intervalo de confianza para mh de nivel  =1- es : Héctor Allende O. 23

  24. 2.10.2 Predicción de una observación. La predicción de una observación yh no observada se efectúa mediante mediante la media de la distribución condicionada, dado Error cuadrático medio de la predicción. Intervalo de confianza para mh. Un intervalo de confianza para yh de nivel  =1- está dado por: 2.11 Diagnósis y validación de los modelos de regresión múltiple. En este sección se describen los problemas principales que surgir al construír un modelo de regresión, sus efectos sobre las propiedades del modelo y como reformular el modelo para adecuarlo a la realidad. Héctor Allende O. 24

  25. Héctor Allende O. 25

More Related