1 / 35

Capítulo 14. Regressão linear múltipla

14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão. 14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

gitel
Download Presentation

Capítulo 14. Regressão linear múltipla

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão. 14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão 14.6 Comparando R2 entre equações de tamanhos diferentes. 14.7 R2 Ajustado. 14.8 ANOVA para testar a significância da equação inteira: teste F. 14.9 Teste de hipotese para os coeficientes individuais. 14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade 14.11 Exemplo com as variáveis binárias. 14.12 Multicolinearidade 14.13 Questões e exercícios. 14.14 Referências Capítulo 14. Regressão linear múltipla

  2. 14.1 Introdução Vamos apresentar a equação de regressão na seguinte forma estática, sem considerar o aspecto de tempo: Y = a + b1X1 + b2X2 + b3X3 +... + eNID(0,σe) mais variáveis independentes podem ser colocadas se os graus de liberdade (número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada. O erro deve ser NID(0,σe), distribuído Normalmente, e os erros devem ser Independentes (erros não devem ser auto correlacionados), com média zero e desvio padrão constante σe.

  3. 14.2 Comentários sobre as variáveis na equação de regressão. Quais tipos de variáveis podemos usar para Y e X? Y terá que ser uma variável aleatória e contínua. A variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que a distribuição de Y é simétrica, um requisito estatístico da distribuição normal para assegurar coeficientes não enviesados, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida. Os valores de X são praticamente livres de restrições, assumindo valores contínuos ou discretos. Os números binários 0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir tendência nos dados ou algum tipo de sazonalidade.

  4. 14.3 Regressão múltipla em termos matriciais. Y1 = a + b1X1,1 + b2X1,2 + e1NID(0,σe) Y2 = a + b1X2,1 + b2X2,2 + e2NID(0,σe) Y3 = a + b1X3,1 + b2X3,2 + e3NID(0,σe) ... ... YT = a + b1XT,1 + b2XT,2 + eTNID(0,σe) Y = Xb + e

  5. Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios. peso = 156,61 - 0,89temp + 0,086CQ + e

  6. Matriz de variância e covariância

  7. 14.4 Os coeficientes de regressão como valores padronizados e percentagens • A vantagem de converter os coeficientes em percentagens ou valores padronizados é que o coeficiente deixa de ser dependente da unidade de medida. • Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do coeficiente pode ficar mais difícil. No exemplo dos dados da tabela 14.2, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a análise da força da relação.

  8. Elasticidade (ElasYX) A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim, o coeficiente estimado é multiplicado pela razão entre as médias. Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é ElasYX = - 0,89*115/55,925 = -1,83. Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento. Até mesmo peso medido em libras ou onças e temperatura medida em graus Kelvin, a validade do coeficiente em percentagem continua.

  9. Padronizar o coeficiente em termos de desvios padrão - coeficiente beta . O coeficiente beta é definido assim, O coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para desvio padrão leva betaYX = -0,89*11,677/11,109 = -0,936. Se a temperatura variar em um desvio padrão, vai haver uma variação de 0,936 desvio padrão no peso.

  10. Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de relacionamento.

  11. 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas. 1. Erro de regressão não enviesado. E(e) = 0 2. Homocedasticidade. E(e2) = constante = e2 3. Independência. COV(et,et-j) = 0 4. Normalidade. et N(0, e). 1, 2, 3 e 4 Resumidas: et = NID(0, e2I) 5. cov(et,X) = 0. 6. Multicolinearidade. COV(Xi,Xj) = 0. 7. Linearidade.

  12. 14.6 Comparando R2 entre equações de tamanhos diferentes. • No contexto de regressão múltipla, esta medida (Coeficiente de determinação - R2.). se caracteriza por uma grande desvantagem especialmente quando utilizada para comparar uma equação contra outra: o valor de R2 é diretamente relacionado ao número de variáveis na equação. • Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R2 sempre aumenta, mesmo se tratando de variáveis irrelevantes na explicação de Y.

  13. Comparando R2 entre equações Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X2: 1a. equação: e(a, b1, b2) = Y - a + b1X1 + b2X2 2a. equação: e(a, b1) = Y - a + b1X1 Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R2 maior), até mesmo com qualquer variável X2 relevante ou não para explicar Y.

  14. Comparando R2 entre equações Deve ser claro que a segunda SQE com b2 = 0 é que pertence à segunda equação contando com uma variável a menos, (2a. equação: e(a, b1) = Y - a + b1X1 ) e que será sempre maior que a primeira SQE otimizada. Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R2 ser maior que o coeficiente R2 da segunda equação, R2(a, b1, 0), independentemente da relevância da nova variável X2

  15. 14.7 R2 Ajustado. Vamos corrigir esta falha do R2 e apresentar o R2 ajustado. Onde (T–1) são graus de liberdade associados a SQT, e (T – k -1) são os graus de liberdade associados a SQE, onde k é o número de variáveis independentes.

  16. Tabela 14.5 –R2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002). Tabela 14.2 R2aj é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ. O resultado do erro padrão favorece a equação com duas variáveis (temp e CQ), mas o favorecimento é questionável, avaliando a pequena diferença entre as duas medidas. A tomada de decisão baseada em evidencias tão fracas é insustentável. O pesquisador precisa investigar mais a situação e buscar conclusões contundentes.

  17. 14.8 ANOVA para testar a significância da equação inteira: teste F. O mais básico teste de hipótese é um teste com a estatística F sobre todas as estimativas simultaneamente. Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F). Y= a + b1X1 + b2X2 + b3X3 + e As hipóteses nula e alternativa são: H0: b1 = b2 = b3 = 0 H1: não há igualdade a zero F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) )

  18. Tabela 14.6 – ANOVA, Estatística F e valor p. gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados O valor da estatistica F é relativamente alto igual a 36,27 (= 603,9/16,6) e valor p correspondente igual a 0,0000493, praticamente igual a zero. Portanto, podemos rejeitar a hipotese nula e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das variáveis independentes, temperatura e composição química.

  19. 14.9 Teste de hipotese para os coeficientes individuais. O teste de hipótese para a significância de coeficientes individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no contexto de regressão simples. O procedimento para regressão múltipla é idêntico. Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de regressão cujos coeficientes já foram apresentados: peso = 156,61 - 0,89temp+ 0,086CQ + e

  20. Tabela 14.7 – Teste de hipótese para coeficientes individuais As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentes baixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero. Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. A não significância da variável CQ já foi indicada pela análise de R2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado mais uma vez. .

  21. 14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade A variável binária é criada artificialmente para ser utilizada em regressões de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo é de diferenciar homens e mulheres. Y = a + dD + b1X1 + b2X2 + … + et onde Dé a binária, zero para homem e unidade para mulher. O coeficiente d modifica o intercepto. Quando analisando as mulheres, D será igual a unidade e o intercepto será igual a (a + d), e analisando os homens o intercepto será simplesmente a, pois D é zero para os homens.

  22. Armadilha da variável binária. Criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia montando duas variáveis binárias. A equação é: Y = a + d1Dm + d2Dh + b1X1 + b2X2 + … + et A primeira coluna de X é uma combinação linear da segunda e terceira. A condição é incompatível com o procedimento de mínimos quadrados. O intercepto tem que ser eliminado da equação. Assim, a armadilha da variável binária será resolvida.

  23. Sazonalidade O uso das variáveis sazonais resulta em uma equação de regressão como a seguinte: Y = aDJAN + bDFEV + cDMAR +... + e com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. A variável binária pode representar um ano ou os dias da semana, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer da série temporal. Em muitos pacotes computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em função do seu uso tão comum.

  24. 14.11 Exemplo com as variáveis binárias. Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança. A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto. A previsão será montada com o suporte de uma regressão múltipla. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da semana da estação de 1 a 30. Veja os dados na tabela 14.9.

  25. Tabela 14.10 – A matriz X de dados da regressão para as primeiras 9 semanas de 2005

  26. A regressão múltipla A equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato: Vendas = b1D2005 + b2D2006 + b3D2007 + b4D2008 + c1S + c2S2 + c3S3 + e Nota-se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária

  27. Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis Já é notável o tamanho do R2 e o R2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008.

  28. Tabela 14.12 – Teste F

  29. Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas Desde que o coeficiente de D2006 não é significante e, portanto a hipótese nula de coeficiente nulo não pode ser rejeitada, o pesquisador permite que a variável seja eliminada do modelo.

  30. foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p. Tabela 14.14 – Teste F, D2006 excluída Foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

  31. Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída Vendas = - 6248,74*D2005 - 4204,37*D2007 - 3519,15*D2008 + 2739,72*S - 87,10*S2 + 0,82*S3

  32. Tabela 14.16 – Previsões das vendas na segunda metade da estação de 2008

  33. 14.12 Multicolinearidade Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de multicolinearidade. Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0. O resultado para a análise de regressão da presença de correlação entre variaveis independentes são erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos quando na realidade sao significantes e não nulos.

  34. Multicolinearidade - solução As vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t. A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis. Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, é obrigado calcular os coeficientes de correlação entre as variaveis independentes e se tiver valores altos, então ele deve eliminar algumas variaveis ou trabalhar com índices de combinações das variaveis similhantes.

  35. 14.14 Referências • Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p. • Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.

More Related