cap tulo 14 regress o linear m ltipla
Download
Skip this Video
Download Presentation
Capítulo 14. Regressão linear múltipla

Loading in 2 Seconds...

play fullscreen
1 / 35

Capítulo 14. Regressão linear múltipla - PowerPoint PPT Presentation


  • 109 Views
  • Uploaded on

14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão. 14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Capítulo 14. Regressão linear múltipla ' - gitel


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
cap tulo 14 regress o linear m ltipla

14.1 Introdução

14.2 Comentários sobre as variáveis na equação de regressão.

14.3 Regressão múltipla em termos matriciais.

14.4 Os coeficientes de regressão como valores padronizados e percentagens

14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

14.6 Comparando R2 entre equações de tamanhos diferentes.

14.7 R2 Ajustado.

14.8 ANOVA para testar a significância da equação inteira: teste F.

14.9 Teste de hipotese para os coeficientes individuais.

14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade

14.11 Exemplo com as variáveis binárias.

14.12 Multicolinearidade

14.13 Questões e exercícios.

14.14 Referências

Capítulo 14. Regressão linear múltipla

14 1 introdu o
14.1 Introdução

Vamos apresentar a equação de regressão na seguinte forma estática, sem considerar o aspecto de tempo:

Y = a + b1X1 + b2X2 + b3X3 +... + eNID(0,σe)

mais variáveis independentes podem ser colocadas

se os graus de liberdade

(número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada.

O erro deve ser NID(0,σe), distribuído Normalmente, e os erros devem ser Independentes (erros não devem ser auto correlacionados), com média zero e desvio padrão constante σe.

14 2 coment rios sobre as vari veis na equa o de regress o
14.2 Comentários sobre as variáveis na equação de regressão.

Quais tipos de variáveis podemos usar para Y e X?

Y terá que ser uma variável aleatória e contínua. A variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que a distribuição de Y é simétrica, um requisito estatístico da distribuição normal para assegurar coeficientes não enviesados, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida.

Os valores de X são praticamente livres de restrições, assumindo valores contínuos ou discretos. Os números binários 0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir tendência nos dados ou algum tipo de sazonalidade.

14 3 regress o m ltipla em termos matriciais
14.3 Regressão múltipla em termos matriciais.

Y1 = a + b1X1,1 + b2X1,2 + e1NID(0,σe)

Y2 = a + b1X2,1 + b2X2,2 + e2NID(0,σe)

Y3 = a + b1X3,1 + b2X3,2 + e3NID(0,σe)

...

...

YT = a + b1XT,1 + b2XT,2 + eTNID(0,σe)

Y = Xb + e

tabela 14 2 peso determinado por temperatura e composi o qu mica em 12 ensaios
Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios.

peso = 156,61 - 0,89temp + 0,086CQ + e

14 4 os coeficientes de regress o como valores padronizados e percentagens
14.4 Os coeficientes de regressão como valores padronizados e percentagens
  • A vantagem de converter os coeficientes em percentagens ou valores padronizados é que o coeficiente deixa de ser dependente da unidade de medida.
  • Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do coeficiente pode ficar mais difícil. No exemplo dos dados da tabela 14.2, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a análise da força da relação.
elasticidade elas yx
Elasticidade (ElasYX)

A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim,

o coeficiente estimado é multiplicado pela razão entre as médias.

Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é

ElasYX = - 0,89*115/55,925 = -1,83.

Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento.

Até mesmo peso medido em libras ou onças e temperatura medida

em graus Kelvin, a validade do coeficiente em percentagem

continua.

padronizar o coeficiente em termos de desvios padr o coeficiente beta
Padronizar o coeficiente em termos de desvios padrão - coeficiente beta .

O coeficiente beta é definido assim,

O coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para desvio padrão leva

betaYX = -0,89*11,677/11,109 = -0,936.

Se a temperatura variar em um desvio padrão, vai haver

uma variação de 0,936 desvio padrão no peso.

14 5 suposi es b sicas que evitam vi s no estimador do coeficiente e do seu desvio padr o
14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas.

1. Erro de regressão não enviesado. E(e) = 0

2. Homocedasticidade. E(e2) = constante = e2

3. Independência. COV(et,et-j) = 0

4. Normalidade. et N(0, e).

1, 2, 3 e 4 Resumidas: et = NID(0, e2I)

5. cov(et,X) = 0.

6. Multicolinearidade. COV(Xi,Xj) = 0.

7. Linearidade.

14 6 comparando r 2 entre equa es de tamanhos diferentes
14.6 Comparando R2 entre equações de tamanhos diferentes.
  • No contexto de regressão múltipla, esta medida (Coeficiente de determinação - R2.). se caracteriza por uma grande desvantagem especialmente quando utilizada para comparar uma equação contra outra: o valor de R2 é diretamente relacionado ao número de variáveis na equação.
  • Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R2 sempre aumenta, mesmo se tratando de variáveis irrelevantes na explicação de Y.
comparando r 2 entre equa es
Comparando R2 entre equações

Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X2:

1a. equação: e(a, b1, b2) = Y - a + b1X1 + b2X2

2a. equação: e(a, b1) = Y - a + b1X1

Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R2 maior), até mesmo com qualquer variável X2 relevante

ou não para explicar Y.

comparando r 2 entre equa es1
Comparando R2 entre equações

Deve ser claro que a segunda SQE com b2 = 0 é que pertence à segunda equação contando com uma variável a menos,

(2a. equação: e(a, b1) = Y - a + b1X1 )

e que será sempre maior que a primeira SQE otimizada.

Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R2 ser maior que o coeficiente R2 da segunda equação, R2(a, b1, 0), independentemente

da relevância da nova variável X2

14 7 r 2 ajustado
14.7 R2 Ajustado.

Vamos corrigir esta falha do R2 e apresentar o R2 ajustado.

Onde (T–1) são graus de liberdade associados a SQT, e

(T – k -1) são os graus de liberdade associados a SQE,

onde k é o número de variáveis independentes.

slide16
Tabela 14.5 –R2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002). Tabela 14.2

R2aj é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ. O resultado do erro padrão favorece a equação com duas variáveis (temp e CQ), mas o favorecimento é questionável, avaliando a pequena diferença entre as duas medidas. A tomada de decisão baseada em evidencias tão fracas é insustentável. O pesquisador precisa investigar mais a situação e buscar conclusões contundentes.

14 8 anova para testar a signific ncia da equa o inteira teste f
14.8 ANOVA para testar a significância da equação inteira: teste F.

O mais básico teste de hipótese é um teste com a estatística F sobre todas as estimativas simultaneamente.

Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F).

Y= a + b1X1 + b2X2 + b3X3 + e

As hipóteses nula e alternativa são:

H0: b1 = b2 = b3 = 0

H1: não há igualdade a zero

F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) )

tabela 14 6 anova estat stica f e valor p
Tabela 14.6 – ANOVA, Estatística F e valor p.

gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados

O valor da estatistica F é relativamente alto igual a 36,27 (= 603,9/16,6) e valor p correspondente igual a 0,0000493, praticamente igual a zero. Portanto, podemos rejeitar a hipotese nula e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das variáveis independentes, temperatura e composição química.

14 9 teste de hipotese para os coeficientes individuais
14.9 Teste de hipotese para os coeficientes individuais.

O teste de hipótese para a significância de coeficientes individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no contexto de regressão simples.

O procedimento para regressão múltipla é idêntico.

Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de regressão cujos coeficientes já foram apresentados:

peso = 156,61 - 0,89temp+ 0,086CQ + e

tabela 14 7 teste de hip tese para coeficientes individuais
Tabela 14.7 – Teste de hipótese para coeficientes individuais

As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentes baixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero.

Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. A não significância da variável CQ já foi indicada pela análise de R2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado mais uma vez.

.

14 10 vari vel bin ria e outras vari veis artificiais tend ncia e sazonalidade
14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade

A variável binária é criada artificialmente para ser utilizada em regressões de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo é de diferenciar homens e mulheres.

Y = a + dD + b1X1 + b2X2 + … + et

onde Dé a binária, zero para homem e unidade para mulher.

O coeficiente d modifica o intercepto. Quando analisando as mulheres, D será igual a unidade e o intercepto será igual a (a + d), e analisando os homens o intercepto será simplesmente a, pois D é zero para os homens.

armadilha da vari vel bin ria
Armadilha da variável binária.

Criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia montando duas variáveis binárias.

A equação é:

Y = a + d1Dm + d2Dh + b1X1 + b2X2 + … + et

A primeira coluna de X é uma combinação linear da segunda e terceira. A condição é incompatível com o procedimento de mínimos quadrados. O intercepto tem que ser eliminado da equação. Assim, a armadilha da variável binária será resolvida.

sazonalidade
Sazonalidade

O uso das variáveis sazonais resulta em uma equação de regressão como a seguinte:

Y = aDJAN + bDFEV + cDMAR +... + e

com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. A variável binária pode representar um ano ou os dias da semana, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer da série temporal. Em muitos pacotes computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em função do seu uso tão comum.

14 11 exemplo com as vari veis bin rias
14.11 Exemplo com as variáveis binárias.

Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança.

A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto.

A previsão será montada com o suporte de uma regressão múltipla. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da

semana da estação de 1 a 30.

Veja os dados na tabela 14.9.

a regress o m ltipla
A regressão múltipla

A equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato:

Vendas = b1D2005 + b2D2006 + b3D2007 + b4D2008

+ c1S + c2S2 + c3S3

+ e

Nota-se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária

tabela 14 11 resultados preliminares da regress o da equa o com todas as vari veis
Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis

Já é notável o tamanho do R2 e o R2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008.

tabela 14 13 teste estat stica t coeficientes individuais todas as vari veis inclusas
Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas

Desde que o coeficiente de D2006 não é significante e, portanto a hipótese nula de coeficiente nulo não pode ser rejeitada, o pesquisador permite que a variável seja eliminada do modelo.

tabela 14 14 teste f d2006 exclu da

foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

Tabela 14.14 – Teste F, D2006 excluída

Foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

tabela 14 15 teste estat stica t coeficientes individuais d2006 exclu da
Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída

Vendas = - 6248,74*D2005 - 4204,37*D2007 - 3519,15*D2008

+ 2739,72*S - 87,10*S2 + 0,82*S3

14 12 multicolinearidade
14.12 Multicolinearidade

Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de multicolinearidade.

Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0.

O resultado para a análise de regressão da presença de correlação entre variaveis independentes são erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos

quando na realidade sao significantes e não nulos.

multicolinearidade solu o
Multicolinearidade - solução

As vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t.

A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis.

Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, é obrigado calcular os coeficientes de correlação entre as variaveis independentes e se tiver valores altos,

então ele deve eliminar algumas variaveis ou trabalhar com

índices de combinações das variaveis similhantes.

14 14 refer ncias
14.14 Referências
  • Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p.
  • Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.
ad