Cap tulo 14 regress o linear m ltipla
Download
1 / 35

Capítulo 14. Regressão linear múltipla - PowerPoint PPT Presentation


  • 109 Views
  • Uploaded on

14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão. 14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

loader
I am the owner, or an agent authorized to act on behalf of the owner, of the copyrighted work described.
capcha
Download Presentation

PowerPoint Slideshow about ' Capítulo 14. Regressão linear múltipla ' - gitel


An Image/Link below is provided (as is) to download presentation

Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author.While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server.


- - - - - - - - - - - - - - - - - - - - - - - - - - E N D - - - - - - - - - - - - - - - - - - - - - - - - - -
Presentation Transcript
Cap tulo 14 regress o linear m ltipla

14.1 Introdução

14.2 Comentários sobre as variáveis na equação de regressão.

14.3 Regressão múltipla em termos matriciais.

14.4 Os coeficientes de regressão como valores padronizados e percentagens

14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

14.6 Comparando R2 entre equações de tamanhos diferentes.

14.7 R2 Ajustado.

14.8 ANOVA para testar a significância da equação inteira: teste F.

14.9 Teste de hipotese para os coeficientes individuais.

14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade

14.11 Exemplo com as variáveis binárias.

14.12 Multicolinearidade

14.13 Questões e exercícios.

14.14 Referências

Capítulo 14. Regressão linear múltipla


14 1 introdu o
14.1 Introdução

Vamos apresentar a equação de regressão na seguinte forma estática, sem considerar o aspecto de tempo:

Y = a + b1X1 + b2X2 + b3X3 +... + eNID(0,σe)

mais variáveis independentes podem ser colocadas

se os graus de liberdade

(número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada.

O erro deve ser NID(0,σe), distribuído Normalmente, e os erros devem ser Independentes (erros não devem ser auto correlacionados), com média zero e desvio padrão constante σe.


14 2 coment rios sobre as vari veis na equa o de regress o
14.2 Comentários sobre as variáveis na equação de regressão.

Quais tipos de variáveis podemos usar para Y e X?

Y terá que ser uma variável aleatória e contínua. A variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que a distribuição de Y é simétrica, um requisito estatístico da distribuição normal para assegurar coeficientes não enviesados, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida.

Os valores de X são praticamente livres de restrições, assumindo valores contínuos ou discretos. Os números binários 0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir tendência nos dados ou algum tipo de sazonalidade.


14 3 regress o m ltipla em termos matriciais
14.3 Regressão múltipla em termos matriciais. regressão.

Y1 = a + b1X1,1 + b2X1,2 + e1NID(0,σe)

Y2 = a + b1X2,1 + b2X2,2 + e2NID(0,σe)

Y3 = a + b1X3,1 + b2X3,2 + e3NID(0,σe)

...

...

YT = a + b1XT,1 + b2XT,2 + eTNID(0,σe)

Y = Xb + e


Tabela 14 2 peso determinado por temperatura e composi o qu mica em 12 ensaios
Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios.

peso = 156,61 - 0,89temp + 0,086CQ + e


Matriz de vari ncia e covari ncia
Matriz de variância e covariância composição química em 12 ensaios.


14 4 os coeficientes de regress o como valores padronizados e percentagens
14.4 Os coeficientes de regressão como valores padronizados e percentagens

  • A vantagem de converter os coeficientes em percentagens ou valores padronizados é que o coeficiente deixa de ser dependente da unidade de medida.

  • Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do coeficiente pode ficar mais difícil. No exemplo dos dados da tabela 14.2, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a análise da força da relação.


Elasticidade elas yx
Elasticidade (Elas e percentagens YX)

A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim,

o coeficiente estimado é multiplicado pela razão entre as médias.

Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é

ElasYX = - 0,89*115/55,925 = -1,83.

Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento.

Até mesmo peso medido em libras ou onças e temperatura medida

em graus Kelvin, a validade do coeficiente em percentagem

continua.


Padronizar o coeficiente em termos de desvios padr o coeficiente beta
Padronizar o coeficiente em termos de desvios padrão - coeficiente beta .

O coeficiente beta é definido assim,

O coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para desvio padrão leva

betaYX = -0,89*11,677/11,109 = -0,936.

Se a temperatura variar em um desvio padrão, vai haver

uma variação de 0,936 desvio padrão no peso.


Tabela 14 4 os coeficientes e as v rias maneiras de calcular a for a de relacionamento
Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de relacionamento.


14 5 suposi es b sicas que evitam vi s no estimador do coeficiente e do seu desvio padr o
14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas.

1. Erro de regressão não enviesado. E(e) = 0

2. Homocedasticidade. E(e2) = constante = e2

3. Independência. COV(et,et-j) = 0

4. Normalidade. et N(0, e).

1, 2, 3 e 4 Resumidas: et = NID(0, e2I)

5. cov(et,X) = 0.

6. Multicolinearidade. COV(Xi,Xj) = 0.

7. Linearidade.


14 6 comparando r 2 entre equa es de tamanhos diferentes
14.6 Comparando R coeficiente e do seu desvio padrão2 entre equações de tamanhos diferentes.

  • No contexto de regressão múltipla, esta medida (Coeficiente de determinação - R2.). se caracteriza por uma grande desvantagem especialmente quando utilizada para comparar uma equação contra outra: o valor de R2 é diretamente relacionado ao número de variáveis na equação.

  • Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R2 sempre aumenta, mesmo se tratando de variáveis irrelevantes na explicação de Y.


Comparando r 2 entre equa es
Comparando R coeficiente e do seu desvio padrão2 entre equações

Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X2:

1a. equação: e(a, b1, b2) = Y - a + b1X1 + b2X2

2a. equação: e(a, b1) = Y - a + b1X1

Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R2 maior), até mesmo com qualquer variável X2 relevante

ou não para explicar Y.


Comparando r 2 entre equa es1
Comparando R coeficiente e do seu desvio padrão2 entre equações

Deve ser claro que a segunda SQE com b2 = 0 é que pertence à segunda equação contando com uma variável a menos,

(2a. equação: e(a, b1) = Y - a + b1X1 )

e que será sempre maior que a primeira SQE otimizada.

Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R2 ser maior que o coeficiente R2 da segunda equação, R2(a, b1, 0), independentemente

da relevância da nova variável X2


14 7 r 2 ajustado
14.7 R coeficiente e do seu desvio padrão2 Ajustado.

Vamos corrigir esta falha do R2 e apresentar o R2 ajustado.

Onde (T–1) são graus de liberdade associados a SQT, e

(T – k -1) são os graus de liberdade associados a SQE,

onde k é o número de variáveis independentes.


Tabela 14.5 –R coeficiente e do seu desvio padrão2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002). Tabela 14.2

R2aj é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ. O resultado do erro padrão favorece a equação com duas variáveis (temp e CQ), mas o favorecimento é questionável, avaliando a pequena diferença entre as duas medidas. A tomada de decisão baseada em evidencias tão fracas é insustentável. O pesquisador precisa investigar mais a situação e buscar conclusões contundentes.


14 8 anova para testar a signific ncia da equa o inteira teste f
14.8 ANOVA para testar a significância da equação inteira: teste F.

O mais básico teste de hipótese é um teste com a estatística F sobre todas as estimativas simultaneamente.

Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F).

Y= a + b1X1 + b2X2 + b3X3 + e

As hipóteses nula e alternativa são:

H0: b1 = b2 = b3 = 0

H1: não há igualdade a zero

F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) )


Tabela 14 6 anova estat stica f e valor p
Tabela 14.6 – inteira: teste F. ANOVA, Estatística F e valor p.

gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados

O valor da estatistica F é relativamente alto igual a 36,27 (= 603,9/16,6) e valor p correspondente igual a 0,0000493, praticamente igual a zero. Portanto, podemos rejeitar a hipotese nula e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das variáveis independentes, temperatura e composição química.


14 9 teste de hipotese para os coeficientes individuais
14.9 Teste de hipotese para os coeficientes individuais. inteira: teste F.

O teste de hipótese para a significância de coeficientes individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no contexto de regressão simples.

O procedimento para regressão múltipla é idêntico.

Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de regressão cujos coeficientes já foram apresentados:

peso = 156,61 - 0,89temp+ 0,086CQ + e


Tabela 14 7 teste de hip tese para coeficientes individuais
Tabela 14.7 – Teste de hipótese para coeficientes individuais

As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentes baixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero.

Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. A não significância da variável CQ já foi indicada pela análise de R2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado mais uma vez.

.


14 10 vari vel bin ria e outras vari veis artificiais tend ncia e sazonalidade
14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade

A variável binária é criada artificialmente para ser utilizada em regressões de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo é de diferenciar homens e mulheres.

Y = a + dD + b1X1 + b2X2 + … + et

onde Dé a binária, zero para homem e unidade para mulher.

O coeficiente d modifica o intercepto. Quando analisando as mulheres, D será igual a unidade e o intercepto será igual a (a + d), e analisando os homens o intercepto será simplesmente a, pois D é zero para os homens.


Armadilha da vari vel bin ria
Armadilha da variável binária. tendência e sazonalidade

Criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia montando duas variáveis binárias.

A equação é:

Y = a + d1Dm + d2Dh + b1X1 + b2X2 + … + et

A primeira coluna de X é uma combinação linear da segunda e terceira. A condição é incompatível com o procedimento de mínimos quadrados. O intercepto tem que ser eliminado da equação. Assim, a armadilha da variável binária será resolvida.


Sazonalidade
Sazonalidade tendência e sazonalidade

O uso das variáveis sazonais resulta em uma equação de regressão como a seguinte:

Y = aDJAN + bDFEV + cDMAR +... + e

com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. A variável binária pode representar um ano ou os dias da semana, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer da série temporal. Em muitos pacotes computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em função do seu uso tão comum.


14 11 exemplo com as vari veis bin rias
14.11 Exemplo com as variáveis binárias. tendência e sazonalidade

Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança.

A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto.

A previsão será montada com o suporte de uma regressão múltipla. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da

semana da estação de 1 a 30.

Veja os dados na tabela 14.9.



A regress o m ltipla
A regressão múltipla primeiras 9 semanas de 2005

A equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato:

Vendas = b1D2005 + b2D2006 + b3D2007 + b4D2008

+ c1S + c2S2 + c3S3

+ e

Nota-se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária


Tabela 14 11 resultados preliminares da regress o da equa o com todas as vari veis
Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis

Já é notável o tamanho do R2 e o R2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008.


Tabela 14 12 teste f
Tabela 14.12 – Teste F equação com todas as variáveis


Tabela 14 13 teste estat stica t coeficientes individuais todas as vari veis inclusas
Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas

Desde que o coeficiente de D2006 não é significante e, portanto a hipótese nula de coeficiente nulo não pode ser rejeitada, o pesquisador permite que a variável seja eliminada do modelo.


Tabela 14 14 teste f d2006 exclu da

foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

Tabela 14.14 – Teste F, D2006 excluída

Foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.


Tabela 14 15 teste estat stica t coeficientes individuais d2006 exclu da
Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída

Vendas = - 6248,74*D2005 - 4204,37*D2007 - 3519,15*D2008

+ 2739,72*S - 87,10*S2 + 0,82*S3



14 12 multicolinearidade
14.12 Multicolinearidade estação de 2008

Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de multicolinearidade.

Não é permitido relacionamento entre duas ou mais variáveis independentes: cov(Xi,Xj) = 0.

O resultado para a análise de regressão da presença de correlação entre variaveis independentes são erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos

quando na realidade sao significantes e não nulos.


Multicolinearidade solu o
Multicolinearidade - solução estação de 2008

As vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t.

A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis.

Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, é obrigado calcular os coeficientes de correlação entre as variaveis independentes e se tiver valores altos,

então ele deve eliminar algumas variaveis ou trabalhar com

índices de combinações das variaveis similhantes.


14 14 refer ncias
14.14 Referências estação de 2008

  • Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados. 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p.

  • Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.


ad