350 likes | 602 Views
14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão. 14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão
E N D
14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão. 14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão 14.6 Comparando R2 entre equações de tamanhos diferentes. 14.7 R2 Ajustado. 14.8 ANOVA para testar a significância da equação inteira: teste F. 14.9 Teste de hipotese para os coeficientes individuais. 14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade 14.11 Exemplo com as variáveis binárias. 14.12 Multicolinearidade 14.13 Questões e exercícios. 14.14 Referências Capítulo 14. Regressão linear múltipla
14.1 Introdução Vamos apresentar a equação de regressão na seguinte forma estática, sem considerar o aspecto de tempo: Y = a + b1X1 + b2X2 + b3X3 +... + eNID(0,σe) mais variáveis independentes podem ser colocadas se os graus de liberdade (número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada. O erro deve ser NID(0,σe), distribuído Normalmente, e os erros devem ser Independentes (erros não devem ser auto correlacionados), com média zero e desvio padrão constante σe.
14.2 Comentários sobre as variáveis na equação de regressão. Quais tipos de variáveis podemos usar para Y e X? Y terá que ser uma variável aleatória e contínua. A variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que a distribuição de Y é simétrica, um requisito estatístico da distribuição normal para assegurar coeficientes não enviesados, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida. Os valores de X são praticamente livres de restrições, assumindo valores contínuos ou discretos. Os números binários 0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir tendência nos dados ou algum tipo de sazonalidade.
14.3 Regressão múltipla em termos matriciais. Y1 = a + b1X1,1 + b2X1,2 + e1NID(0,σe) Y2 = a + b1X2,1 + b2X2,2 + e2NID(0,σe) Y3 = a + b1X3,1 + b2X3,2 + e3NID(0,σe) ... ... YT = a + b1XT,1 + b2XT,2 + eTNID(0,σe) Y = Xb + e
Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios. peso = 156,61 - 0,89temp + 0,086CQ + e
14.4 Os coeficientes de regressão como valores padronizados e percentagens • A vantagem de converter os coeficientes em percentagens ou valores padronizados é que o coeficiente deixa de ser dependente da unidade de medida. • Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do coeficiente pode ficar mais difícil. No exemplo dos dados da tabela 14.2, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a análise da força da relação.
Elasticidade (ElasYX) A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim, o coeficiente estimado é multiplicado pela razão entre as médias. Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é ElasYX = - 0,89*115/55,925 = -1,83. Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento. Até mesmo peso medido em libras ou onças e temperatura medida em graus Kelvin, a validade do coeficiente em percentagem continua.
Padronizar o coeficiente em termos de desvios padrão - coeficiente beta . O coeficiente beta é definido assim, O coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para desvio padrão leva betaYX = -0,89*11,677/11,109 = -0,936. Se a temperatura variar em um desvio padrão, vai haver uma variação de 0,936 desvio padrão no peso.
Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de relacionamento.
14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas. 1. Erro de regressão não enviesado. E(e) = 0 2. Homocedasticidade. E(e2) = constante = e2 3. Independência. COV(et,et-j) = 0 4. Normalidade. et N(0, e). 1, 2, 3 e 4 Resumidas: et = NID(0, e2I) 5. cov(et,X) = 0. 6. Multicolinearidade. COV(Xi,Xj) = 0. 7. Linearidade.
14.6 Comparando R2 entre equações de tamanhos diferentes. • No contexto de regressão múltipla, esta medida (Coeficiente de determinação - R2.). se caracteriza por uma grande desvantagem especialmente quando utilizada para comparar uma equação contra outra: o valor de R2 é diretamente relacionado ao número de variáveis na equação. • Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R2 sempre aumenta, mesmo se tratando de variáveis irrelevantes na explicação de Y.
Comparando R2 entre equações Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X2: 1a. equação: e(a, b1, b2) = Y - a + b1X1 + b2X2 2a. equação: e(a, b1) = Y - a + b1X1 Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R2 maior), até mesmo com qualquer variável X2 relevante ou não para explicar Y.
Comparando R2 entre equações Deve ser claro que a segunda SQE com b2 = 0 é que pertence à segunda equação contando com uma variável a menos, (2a. equação: e(a, b1) = Y - a + b1X1 ) e que será sempre maior que a primeira SQE otimizada. Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R2 ser maior que o coeficiente R2 da segunda equação, R2(a, b1, 0), independentemente da relevância da nova variável X2
14.7 R2 Ajustado. Vamos corrigir esta falha do R2 e apresentar o R2 ajustado. Onde (T–1) são graus de liberdade associados a SQT, e (T – k -1) são os graus de liberdade associados a SQE, onde k é o número de variáveis independentes.
Tabela 14.5 –R2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002). Tabela 14.2 R2aj é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ. O resultado do erro padrão favorece a equação com duas variáveis (temp e CQ), mas o favorecimento é questionável, avaliando a pequena diferença entre as duas medidas. A tomada de decisão baseada em evidencias tão fracas é insustentável. O pesquisador precisa investigar mais a situação e buscar conclusões contundentes.
14.8 ANOVA para testar a significância da equação inteira: teste F. O mais básico teste de hipótese é um teste com a estatística F sobre todas as estimativas simultaneamente. Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F). Y= a + b1X1 + b2X2 + b3X3 + e As hipóteses nula e alternativa são: H0: b1 = b2 = b3 = 0 H1: não há igualdade a zero F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) )
Tabela 14.6 – ANOVA, Estatística F e valor p. gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados O valor da estatistica F é relativamente alto igual a 36,27 (= 603,9/16,6) e valor p correspondente igual a 0,0000493, praticamente igual a zero. Portanto, podemos rejeitar a hipotese nula e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das variáveis independentes, temperatura e composição química.
14.9 Teste de hipotese para os coeficientes individuais. O teste de hipótese para a significância de coeficientes individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no contexto de regressão simples. O procedimento para regressão múltipla é idêntico. Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de regressão cujos coeficientes já foram apresentados: peso = 156,61 - 0,89temp+ 0,086CQ + e
Tabela 14.7 – Teste de hipótese para coeficientes individuais As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentes baixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero. Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. A não significância da variável CQ já foi indicada pela análise de R2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado mais uma vez. .
14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade A variável binária é criada artificialmente para ser utilizada em regressões de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo é de diferenciar homens e mulheres. Y = a + dD + b1X1 + b2X2 + … + et onde Dé a binária, zero para homem e unidade para mulher. O coeficiente d modifica o intercepto. Quando analisando as mulheres, D será igual a unidade e o intercepto será igual a (a + d), e analisando os homens o intercepto será simplesmente a, pois D é zero para os homens.
Armadilha da variável binária. Criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia montando duas variáveis binárias. A equação é: Y = a + d1Dm + d2Dh + b1X1 + b2X2 + … + et A primeira coluna de X é uma combinação linear da segunda e terceira. A condição é incompatível com o procedimento de mínimos quadrados. O intercepto tem que ser eliminado da equação. Assim, a armadilha da variável binária será resolvida.
Sazonalidade O uso das variáveis sazonais resulta em uma equação de regressão como a seguinte: Y = aDJAN + bDFEV + cDMAR +... + e com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. A variável binária pode representar um ano ou os dias da semana, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer da série temporal. Em muitos pacotes computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em função do seu uso tão comum.
14.11 Exemplo com as variáveis binárias. Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança. A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto. A previsão será montada com o suporte de uma regressão múltipla. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da semana da estação de 1 a 30. Veja os dados na tabela 14.9.
Tabela 14.10 – A matriz X de dados da regressão para as primeiras 9 semanas de 2005
A regressão múltipla A equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato: Vendas = b1D2005 + b2D2006 + b3D2007 + b4D2008 + c1S + c2S2 + c3S3 + e Nota-se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária
Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis Já é notável o tamanho do R2 e o R2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008.
Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas Desde que o coeficiente de D2006 não é significante e, portanto a hipótese nula de coeficiente nulo não pode ser rejeitada, o pesquisador permite que a variável seja eliminada do modelo.
foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p. Tabela 14.14 – Teste F, D2006 excluída Foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.
Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída Vendas = - 6248,74*D2005 - 4204,37*D2007 - 3519,15*D2008 + 2739,72*S - 87,10*S2 + 0,82*S3
Tabela 14.16 – Previsões das vendas na segunda metade da estação de 2008
14.12 Multicolinearidade Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de multicolinearidade. Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0. O resultado para a análise de regressão da presença de correlação entre variaveis independentes são erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos quando na realidade sao significantes e não nulos.
Multicolinearidade - solução As vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t. A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis. Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, é obrigado calcular os coeficientes de correlação entre as variaveis independentes e se tiver valores altos, então ele deve eliminar algumas variaveis ou trabalhar com índices de combinações das variaveis similhantes.
14.14 Referências • Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p. • Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.