290 likes | 413 Views
ANÁLISE DE REGRESSÃO. UM GUIA PRÁTICO. O QUE É “REGRESSÃO”?.
E N D
ANÁLISE DE REGRESSÃO UM GUIA PRÁTICO
O QUE É “REGRESSÃO”? • Na análise bidimensional de variáveis, foi introduzida a noção de condicionalidade: a proporção da população que fazia parte de um determinado grupo, condicional ao fato de ter uma característica. No exemplo, calculou-se a freqüência de mulheres que são chefes de família dada a informação que trabalham. • “Regressão” é o cálculo do valor esperado de uma variável Y, dado o conjunto de informações fornecido por um conjunto de características X. Ou seja, é a média de Y, condicional às informações de X (E[Y|X]).
O MODELO LINEAR DE REGRESSÃO • O modelo linear de regressão é a forma utilizada para calcular médias condicionais de uma variável a partir de dados disponíveis sobre variáveis supostamente relacionadas. • O modelo assume o seguinte formato: Y= + b1X1 + 2X2 + ... + • A variável Y é chamada de variável dependente ou explicada. • As variáveis X1, X2, X3, ... são chamadas de explicativas. • O termo é chamado de erro ou distúrbio.
HIPÓTESES BÁSICAS: • Relacionamento linear entre as variáveis • E() = 0 • E(2) = 2 (constante) • Os resíduos são independentes entre si: E(i j) = 0, i,j = 1, 2, 3... • Os resíduos e as variáveis são independentes: E(X) = 0 • As variáveis Xn não podem ser combinações lineares entre si
O AJUSTE DA REGRESSÃO • Graficamente, a análise de regressão implica no ajuste de uma reta que represente de uma “boa forma” a estrutura dos dados.
Mas o que é “boa forma” de ajuste da reta? • Note que a diferença entre a reta ajustada (que é produto do valor esperado condicional) e a observação realizada corresponde ao resíduo. • Logo, o ajuste ideal da reta deve respeitar a condição de “menor distância possível” em relação aos valores observados.
Logo, a idéia de ajuste dos parâmetros do valor esperado condicional passa por “Minimizar a Soma dos Quadrados dos Resíduos”. • O estimador de Mínimos Quadrados Ordinários possui propriedades interessantes, quando as hipóteses básicas não são violadas: ele é não-viesado e é o mais eficiente entre os estimadores lineares. • O estimador de mínimos quadrados, escrito na forma matricial, é: = (X’X)-1(X’Y)
ESTATÍSTICAS DE AVALIAÇÃO • R2 busca decompor a variação total de Y entre variação prevista e variação não explicada pelo modelo (variação dos resíduos). Fazendo a separação, temos: SQT = SQE + SQR onde SQT = Soma dos quadrados total (S(Y-Y)2), SQE = Soma dos quadrados explicada (S(Y*-Y)2) e SQR = Soma dos quadrados dos resíduos (Se2), Y é a média de Y e Y* o valor previsto de Y
Logo, temos: 1 = (SQE/SQT) + (SQR/SQT) O R2 busca verificar o quanto de Y foi explicado pelo modelo. Logo: R2 = SQE/SQT = 1 - (SQR/SQT) Note que, por definição, 0 < R2 < 1. • R2 ajustado: o problema da estatística de R2 é o seu comportamento diante do acréscimo de variáveis no modelo. Qualquer variável adicionada, por menor que seja o seu poder de explicação, gera um crescimento no R2 normal. Logo, o R2 ajustado busca penalizar a estatística pelo acréscimo de variáveis irrelevantes.
ESTATÍSTICAS DOS PARÂMETROS • Toda estimativa de mínimos quadrados ordinários gerada de b possui média igual ao valor esperado para a população e uma variância constante. Logo, qualquer inferência pode ser feita através da estatística “t” sobre os seus valores. • Para a estimativa conjunta dos parâmetros estimados, é necessário fazer a decomposição da variância, de tal forma que se separe a porção da variação de Y que é explicada pelo conjunto de parâmetros em questão. Tendo como hipótese nula a ausência de influência (por conseqüência, hipótese alternativa é a presença de influência das variáveis), temos:
F = [(SQE)/SQR][(n-k-1)/k] onde SQE e SQR foram definidos acima, e n = tamanho da amostra, k = número de coeficientes angulares.
ESTIMAÇÃO DE MODELOS: POR QUE USAR O LOGARITMO NATURAL? • O logaritmo natural enquanto expressão de taxa média de crescimento: uma variável qualquer no tempo pode ser expressa como uma progressão do seu valor no instante “zero” Yt = A.et.g.Y0.t Aplicando o logaritmo natural em ambos os lados da equação: Ln(Yt) = (Ln(A) + Ln(Y0)) + t.g + t
O logaritmo natural como expressão da elasticidade: Ln(Yt) = A + B Ln(Xt) Ln(Yt) = B Ln(Xt) Ln(Yt)/Ln(Xt) = B Mas: Ln(Yt) = Ln(Yt) - Ln(Yt-1) = Ln(Yt / Yt-1) (Yt - Yt-1)/Yt-1 Então: Ln(Yt)/Ln(Xt) = [(Yt - Yt-1)/Yt-1]/[(Xt - Xt-1)/Xt-1] = elasticidade = B
Exercício Prático: CAPM - calculando o Beta de uma ação
VIOLAÇÕES DAS HIPÓTESES - HETEROCEDASTICIDADE • Se E(2) 2 (constante) E(2) = 2i Este problema é conhecido como: heteroscedasticidade Esta violação normalmente é verificada em questões como: • Lucro X Tamanho da empresa: empresas maiores tendem a ter maior dispersão nos seus lucros. • Consumo de um Bem X Renda: pessoas ricas podem escolher melhor a proporção da renda consumida em determinado bem.
Teste para Detectar Heteroscedasticidade • A hipótese nula para qualquer teste é variância constante. Hipótese alternativa é variância inconstante na amostra. • Teste de White: É o mais popular dos testes e consiste em efetuar uma regressão dos resíduos elevados ao quadrado contra o as variáveis explicativas usadas na regressão, seus quadrados e os produtos cruzados. A estatística “F” de significância de todos os parâmetros é o valor do teste. Testes semelhantes, como o de Breush-Pagan, são variações sobre os termos acrescentados na regressão de teste.
VIOLAÇÕES DAS HIPÓTESES - AUTOCORRELAÇÃO SERIAL • Se E(i j) 0, para i,j = 1, 2, 3... temos que o valor de um resíduo passa a influenciar os resultados futuros da média condicional estimada para Y. Problema: Autocorrelação Serial • Fontes de autocorrelação serial: • Omissão de variável relevante; • Má especificação da forma funcional; • Má especificação dinâmica do modelo.
A idéia da autocorrelação serial é que os resíduos contém mais informação sobre a variável dependente do que aquilo que foi “filtrado” pelas variáveis explicativas. Em termos técnicos, o resíduo ainda pode ser sistematizado. • Exemplos de autocorrelação são normalmente encontrados em trabalhos que utilizam séries de tempo como dados de análise.
Teste para Detectar Autocorrelação Serial • A hipótese nula do teste de autocorrelação é a ausência do problema. Hipótese alternativa, sua presença. • Teste de Durbin-Watson: Talvez o mais popular dos testes para detectar o problema, consiste em computar uma soma ponderada dos resíduos, de tal forma que seja possível detectar algum padrão no seu comportamento. Possui o problema de captar apenas a autocorrelação de primeira ordem.
Teste de Breush-Godfrey: Teste de certa forma semelhante ao teste de White, consiste em efetuar uma regressão do resíduo como variável explicada tendo como explicativas o próprio resíduo defasado no tempo e as variáveis explicativas do modelo original. Usa-se a estatística “F” de significância conjunta dos parâmetros da equação de teste. Este teste talvez seja o mais indicado para verificar autocorrelação, pois considera a possibilidade de resíduos correlacionados com valores defasados acima de um período e pode ser usada com variáveis explicativas defasadas.
CONSEQÜÊNCIA DAS VIOLAÇÕES DAS HIPÓTESES • No caso da heteroscedasticidade, a presença do problema tende a não viesar as estimativas dos parâmetros. Todavia, as suas variâncias estimadas não serão as corretas. Logo, inferências sobre os parâmetros estarão má especificadas. • No caso da autocorrelação serial, além do problema da variância, temos a possibilidade de viés nas estimativas se o problema for decorrente de ausência de variáveis relevantes no modelo.
QUEBRAS ESTRUTURAIS E VARIÁVEIS “DUMMIES” • Algumas vezes queremos incluir no modelo de regressão variáveis qualitativas ou categóricas, como planos econômicos, região, etc... • Inclusive porque fenômenos pouco usuais podem determinar viés nas estimativas se não forem controlados. Este tipo de fenômeno é conhecido na literatura como “quebra estrutural”. • Para controlar este tipo de fenômeno e modelar as variáveis qualitativas, são utilizadas variáveis binárias, ou “dummies”
As variáveis recebem este nome por assumirem apenas dois valores ao longo de toda a amostra: zero ou um. O funcionamento da variável é o seguinte: • Período sem a quebra: D = 0 Yt = a + dD + bXt + et Portanto: Yt = a + bXt + et • Período da quebra: D = 1 Yt = (a + d)+ bXt + et
Outro formato possível que a variável “dummy” pode assumir refere-se a mudanças na inclinação. A variável, assim, assume o valor zero para o período sem a mudança e o valor igual ao da variável cuja inclinação mudou para o período com mudança. • O modelo passa a funcionar da seguinte forma: • Período sem a quebra: D = 0 Yt = a + dXt+ bXt + et Portanto: Yt = a + bXt + et • Período da quebra: D = Xt Yt = a + (b + d)Xt + et
Exemplo de Quebra Estrutural: Demanda por Importações - Brasil 1980 - 2001
Uma função de demanda por importações assume o seguinte formato: lnMt = a + b1t + b2lnYt + b3lnRERt + et onde: Mt = importações; t = tendência linear; Yt = PIB real; RERt = taxa de câmbio real. O uso de uma tendência justifica-se por não existir com freqüência mensal uma medida de utilização da capacidade instalada da economia. Todas as variáveis, pelos motivos já conhecidos, encontram-se transformadas para o seu logaritmo natural. • Estimando-se a regressão por OLS, temos o seguinte gráfico dos resíduos:
Note como o resíduo exibe, aparentemente, um padrão sazonal, além de uma quebra estrutural localizada no início dos anos 90. Como o resíduo corresponde a tudo aquilo que não foi explicado pelo modelo, temos aqui o problema de especificação por não termos considerado a quebra estrutural indicado pela mudança de tendência dos resíduos. • Lembre-se: devem existir motivos relevantes para a quebra!!! A presença de “outliers” por si só não quer dizer que existam quebras. No nosso caso, devemos lembrar a mudança ocorrida na economia com a sua abertura comercial no início dos anos 90. Logo, justifica-se uma correção no modelo.