html5-img
1 / 52

Diagnóstico na análise de regressão

Diagnóstico na análise de regressão. • O modelo que estamos usando é adequado? • Os erros tem distribuição normal? • Os erros são independentes? • Os erros tem variância constante? • existem valores discrepantes (“outliers “) ?

daphne
Download Presentation

Diagnóstico na análise de regressão

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Diagnóstico na análise de regressão • O modelo que estamos usando é adequado? • Os erros tem distribuição normal? • Os erros são independentes? • Os erros tem variância constante? • existem valores discrepantes (“outliers “) ?  uma ou mais variáveis preditoras importantes foram omitidas do modelo? Métodos gráficos Testes estatísticos Qualidade do modelo Obs: recomenda-se a leitura do capítulo 9 do livro texto. Diagnóstico para a variável preditora  Verificar se existe algum valor de X discrepante que possa influenciar o ajuste da função de regressão*. Útil para verificar a faixa de validade da análise de regressão. *Ponto influente (Capítulo 9 do livro texto). Seja o exemplo dado em SNEDECOR AND COCHRAN (1976), no livro Statistical methods.

  2. O box-plot não indica que existe algum valor de X1 muito distante dos demais, isto é, que foge da distribuição dos demais. A distribuição é um pouco assimétrica. Outros métodos: •diagrama de pontos •gráfico seqüencial (tempo) •ramo-e-folhas Exercício: fazer o box-plot para X2. Interpretar Y=produção de milho; X1=concentração de fósforo inorgânico X2=concentração de fósforo orgânico 1=Amostras de solos.

  3. Exemplo: 26 programas foram monitoradas para estudar a demanda por recursos. Y=cpu time; X1=disk I/O X2=memory size

  4. Resíduos Diagnóstico para a variável resposta é realizado através de uma análise de resíduos. Os resíduos são definidos como: Os resíduos podem ser considerados como erros observados, para distingui-los do erro verdadeiro desconhecido i no modelo de regressão: Para o modelo de regressão, temos: pressuposição Se o modelo é adequado para os dados, os resíduos observados devem refletir essas propriedades. Propriedades dos resíduos Média Variância Se o modelo está adequado, o QME é um estimador não tendencioso da variância do erro (2).

  5. Dependência: os resíduos não são variáveis aleatórias independentes pois eles envolvem os valores Y(chapéu)i os quais são baseados na mesma equação de regressão. Quando o tamanho da amostra é grande em comparação com o número de parâmetros no modelo de regressão, o efeito de dependência entre os resíduos ei é relativamente sem importância e pode ser ignorado.

  6. Resíduos semistudentizados • importante para detectar valores discrepantes. Diagnóstico: Gráficos utilizados: 1. Gráfico dos resíduos versus variáveis preditoras. 2. Gráfico dos resíduos absolutos ou quadráticos versus variáveis preditoras. 3. Gráficos dos resíduos versus valores ajustados (estimados). 4. Gráficos dos resíduos versus tempo ou outra sequência. 5. Gráfico dos resíduos versus variáveis preditoras omitidas do modelo. 6. Box-plot dos resíduos. 7. Gráfico normal de probabilidades dos resíduos.

  7. Não linearidade da função de regressão: A verificação de que a função de regressão é adequada aos dados pode ser feita através do gráfico dos resíduos versus valores ajustados ou dos resíduos versus variáveis preditoras. Caso verificar-se um comportamento sistemático, termos adicionais ou alternativos devem ser incluídos no modelo. Exemplo: Uma pesquisadora estava interessada em estudar o comportamento do pH de tomates Chronos, inteiros minimamente processados, submetidos ao tratamento vácuo, durante 22 dias de estocagem, a uma temperatura média de 8oC e umidade relativa de 62,78%. A figura apresenta o gráfico dos resíduos versus a variável preditora Dias. Note que os desvios a partir de resíduo=zero apresenta um padrão sistemático; eles são positivos para valores baixos de dias de estocagem, negativos para valores médios e, novamente, positivos para valores altos. PH DIAS 1 5,700 1,000 2 5,800 1,000 3 5,600 1,000 4 4,800 8,000 5 4,700 8,000 6 4,600 8,000 7 4,600 15,000 8 4,500 15,000 9 4,500 15,000 10 4,400 22,000 11 4,300 22,000 12 4,200 22,000

  8. Nesta figura temos um protótipo da situação em que um modelo de regressão linear é adequado. Observe que os resíduos se distribuem aleatoriamente em torno da média zero. Pode-se usar, como neste gráfico, os resíduos versus valores ajustados.

  9. Exemplo: a pesquisadora deseja encontrar o modelo de regressão da porcentagem de acertos sobre o tamanho da cache. Foi usado um modelo RLS. Este gráfico de resíduos mostra que o modelo de regressão linear simples está adequado.

  10. e 0 Heterogeneidade de variâncias O gráfico dos resíduos versus variáveis preditoras ou versus os valores ajustados são apropriados para examinar a suposição de variância constante. Geralmente, a falta de homogeneidade de variâncias tende a produzir um gráfico com forma de megafone, como na figura a seguir: Maior dispersão Menor dispersão Exemplo: uma pesquisadora está estudando o comportamento da perda de peso de tomates Chronos, inteiros minimamente processados, do tratamento controle durante 22 dias de experimento, estocado a uma temperatura média de 8oC e umidade relativa de 62,78%.

  11. O gráfico dos resíduos versus valores preditos (ajustados) mostra que quanto maiores são os valores preditos maior é a dispersão dos resíduos. Isto sugere que a variância é maior para os tempos de estocagem maiores. DIAS PERDAPES 1 1,000 ,700 2 1,000 ,800 3 1,000 ,300 4 1,000 ,400 5 1,000 ,900 6 1,000 1,000 7 8,000 2,500 8 8,000 2,600 9 8,000 2,700 10 8,000 2,800 11 8,000 2,900 12 8,000 3,000 13 8,000 3,200 14 15,000 2,900 15 15,000 5,700 16 15,000 7,100 17 15,000 7,500 18 15,000 7,800 19 15,000 8,700 20 22,000 4,600 21 22,000 5,500 22 22,000 7,700 23 22,000 8,300 24 22,000 9,300 25 22,000 9,500 26 22,000 10,800 27 22,000 11,600

  12. Presença de outliers Outliers são valores extremos, atípicos, ou seja, são observações que não são bem ajustadas pelo modelo. Resíduos que são outliers podem ser identificados a partir de um gráfico dos resíduos versus a variável preditora ou valores ajustados. Pode-se usar também o box-plot ou ramo-e-folhas. O uso dos resíduos semi-studentizados são particularmente úteis, pois é fácil identificar resíduos que estão muitos desvios padrões a partir de zero. Regra: considera-se outliers os resíduos que estão 4 ou mais desvios padrões a partir de zero. O gráfico ao lado apresenta os resíduos semi-studentizados e não contém outliers. Outliers podem introduzir grandes dificuldades na análise estatística. Deve-se descartar um outlier se ele representa um erro de registro, erro de medida, falha de equipamento ou algum outro problema similar.

  13. Falta de independência dos erros Sempre que os dados são obtidos ao longo do tempo (série temporal), ou de algum outro tipo de seqüência (p.e., a seqüência em que os dados foram coletados, áreas geográficas adjacentes), deve-se fazer um gráfico dos resíduos versus seqüência. Resíduos (ei) Resíduos (ei)               0   0             tempo tempo (a) (b) Quando os resíduos são independentes, eles devem se distribuir aleatoriamente em torno de zero. Deve alternar os pontos em torno de zero. Algumas vezes, o problema de falta de independência, é devido a alguma variável importante (p.e. tempo) que foi omitida do modelo. No gráfico (b) é um problema de falta de ajuste da função de regressão (ajuste pobre).

  14. Para os dados de população de Staphilococcus observa-se que os resíduos se distribuem aleatoriamente em torno de zero. Falta de normalidade dos erros Gráfico normal de probabilidades (Normal Probability Plot) Cada resíduo é grafado com o seu valor esperado sob normalidade. Se o padrão de distribuição é linear assume-se que a distribuição dos erros é normal, caso contrário, a distribuição não é normal. Mostra-se que para uma variável aleatória normal com média 0 (zero) e variância 2 ( quadrado médio residual), o valor esperado da k-ésima menor observação (observações ordenadas crescentemente) numa amostra aleatória de tamanho n é: z(A) denota o (A)100 percentil da distribuição normal padrão. Qual é o valor de z para uma área acumulada igual a A?

  15. Exemplo: vamos calcular os valores esperados para os dados de população de Staphilococcus Obs.: resíduos com o mesmo valor: calcular a média dos ranks. Exercício: obtenha o valor esperado para a observação 1. Seja z(0,26)=-0,6433. 2. QME=0,0659 Observamos no gráfico que os pontos caem próximos da reta, sugerindo que a amostra segue aproximadamente uma distribuição normal. A falta de normalidade pode ser devida a heterogeneidade de variâncias e falta de ajuste do modelo, portanto, inicialmente verificar essas suposições.

  16. Omissão de importantes variáveis preditoras Fazer um gráfico dos resíduos versus variáveis preditoras omitidas do modelo que podem ter um efeito importante na resposta. Exemplo: objetivo: estimar o volume da árvore em pé a partir de medidas mais facilmente obtidas. Y=volume da árvore em pés cúbicos; X1=diâmetro da árvore em polegadas a 4 pés e 6 polegadas acima do solo; X2=altura da árvore em pés. Foi realizada uma regressão do volume sobre a altura. Mostra uma relação linear forte entre os resíduos e a variável X1 (DAP) ainda não incluída no modelo. Mostra também heterogeneidade de variâncias.

  17. DAP ALTURA VOLUME 1 8,300 70,000 10,300 2 8,600 65,000 10,300 3 8,800 63,000 10,200 4 10,500 72,000 16,400 5 10,700 81,000 18,800 6 10,800 83,000 19,700 7 11,000 66,000 15,600 8 11,000 75,000 18,200 9 11,100 80,000 22,600 10 11,200 75,000 19,900 11 11,300 79,000 24,200 12 11,400 76,000 21,000 13 11,400 76,000 21,400 14 11,700 69,000 21,300 15 12,000 75,000 19,100 16 12,900 74,000 22,200 17 12,900 85,000 33,800 18 13,300 86,000 27,400 19 13,700 71,000 25,700 20 13,800 64,000 24,900 21 14,000 78,000 34,500 22 14,200 80,000 31,700 23 14,500 74,000 36,300 24 16,000 72,000 38,300 25 16,300 77,000 42,600 26 17,300 81,000 55,400 27 17,500 82,000 55,700 28 17,900 80,000 58,300 29 18,000 80,000 51,500 30 18,000 80,000 51,000 31 20,600 87,000 77,000 A inclinação sugere a inclusão de log dap no modelo. Eliminou-se a heterocedasticidade.

  18. Teste F para falta de ajuste do modelo (Lack of fit) Iremos desenvolver um teste formal para verificar se uma específica função de regressão linear simples representa um bom ajuste para os dados. Suposições: O teste de ajuste do modelo assume que as observações Y para um dado X são: 1) independentes 2) normalmente distribuídos 3) as distribuições de Y tem a mesma variância 2 O teste para falta de ajuste necessita de repetições em um ou mais níveis de X. Exemplo: num estudo observacional da produtividade de trabalhadores e suas idades, diversos trabalhadores de mesma idade são incluídos no estudo; num estudo experimental para verificar o efeito de seis diferentes porcentagens sobre as vendas oferecidas aos vendedores (as), pode-se tomar 3 vendedores (as) para cada porcentagem.

  19. Exemplo (Neter et al.) : num experimento envolvendo 12 filiais suburbanas similares, mas distribuídas, de um banco comercial, aos possuidores de conta bancária nas filiais foram oferecidos presentes para aplicação de dinheiro no mercado. Um valor mínimo de aplicação foi estabelecido para se qualificar a receber o presente. O valor do presente foi diretamente proporcional ao valor mínimo depositado.Vários níveis de depósitos mínimos iniciais e valores de presentes foram usados no experimento para se estabelecer a relação entre o depósito mínimo e o valor do presente, de um lado, e o número de contas abertas nas filiais , de outro. Foram usados seis níveis de depósitos iniciais e os valores dos presentes, com duas filiais atribuídas aleatoriamente para cada nível. Uma filial foi eliminada do estudo. Os resultados foram:

  20. A função de regressão ajustada aos dados é dada por: Regression Summary for Dependent Variable: CONTAS R= ,50850840 R²= ,25858079 Adjusted R²= ,17620088 F(1,9)=3,1389 p<,11021 Std.Error of estimate: 40,472 St. Err. St. Err. BETA of BETA B of B t(9) p-level Intercpt 50,72251 39,39791 1,287442 ,230060 DEPOSITO ,508508 ,287019 ,48670 ,27471 1,771689 ,110212 N.S. Obs.: O vlaor de R2 não está correto. A análise de variância fica: Analysis of Variance; DV: CONTAS (deposito.sta) Sums of Mean Squares df Squares F p-level Regress. 5141,34 1 5141,338 3,138882 ,110212 N.S. Residual 14741,57 9 1637,952 Total 19882,91 Conclusão: indica que a função de regressão linear não é adequada.

  21. Existe uma forte evidência de que o modelo de regressão linear simples não está bem ajustado aos dados. Notação: Xj com j=1,2,...,c indica os níveis da variável preditora. Para o exemplo, o valor de c é 6. O número de repetições para o nível j de X é representado por nj; para o exemplo temos: n1=n2=n3 =n5=n6=2 e n4=1. Vamos representar o valor observado da variável resposta da i-ésima repetição e j-ésimo nível de X por Yij, onde i=1,2,...,nj e j=1,2,...,c.

  22. Objetivo: Vamos particionar o soma de quadrados do erro em dois componentes: soma de quadrados do erro puro(modelo completo) e soma de quadrados da falta de ajuste (modelo reduzido). Vamos fazer o teste para a falta de ajuste do modelo. Modelo completo O modelo completo é dado por: Onde j são os parâmetros, j=1,2,...,c; ij são independentes N(0,2). Como a E(ij)=0, segue-se que: Assim, o parâmetro j (j=1,2,...,c) é a resposta média quando X=Xj. O modelo completo (4) é da mesma forma que o modelo de regressão (3) no sentido que cada resposta Y é o resultado de dois componentes: a resposta média quando X=Xje o termo do erro aleatório. A diferença entre eles é que no modelo completo (4) não existem restrições sobre as médias j, ao passo que no modelo de regressão (3) as respostas médias são linearmente dependentes com X, ou seja, E(Y)= 0+1X.

  23. Demonstra-se que os estimadores de mínimos quadrados ou máxima verossimilhança de j são simplesmente as médias amostrais no j-ésimo nível: Assim o valor esperado estimado de Yij é: E a soma de quadrados do erro do modelo completo é dada por: A soma de quadrados do erro puro é atribuído essencialmente ao acaso (2). É entre os valores de y’s observados. Não importa qual a função de regressão é adequada. Para o exemplo temos:

  24. Os graus de liberdade associados com a soma de quadrados do erro puro é dado por: Para o exemplo, temos: 11-6=5 graus de liberdade. Modelo reduzido ( modelo sob hipótese, em estudo) Devemos levar em consideração o modelo que está sob estudo, isto é, sob hipótese. Neste caso, estamos considerando um modelo de regressão linear simples, portanto, as hipóteses são: Pela hipótese nula, j no modelo completo (4) está linearmente relacionada com Xj, do seguinte modo: Dessa forma, o modelo em estudo, sob H0, é dado por:

  25. Este modelo é justamente o modelo de regressão linear simples (3), com os índices para reconhecer as repetições e os níveis da variável preditora. Sabemos que: Portanto, a soma de quadrados do erro do modelo em estudo, é exatamente a soma de quadrados do erro usualmente calculado: Da tabela da análise de variância obtemos: O cálculo dos graus de liberdade é dado por:n-2. No exemplo, temos: 11-2=9.

  26. Teste para falta de ajuste (lack of fit) Vimos que o teste é dado por: Aqui fica: A soma de quadrados para falta de ajuste é calculada por: SQFA=SQER-SQEP (Veja gráfico adiante) Podemos escrever o teste F* como:

  27. Rejeitamos H0 se F* > F(; (c-2),(n-c))  o modelo não está bem ajustado aos dados. ** Usar o valor p. Exercício: faça o este F* para o exemplo e conclua.

  28. Tabela da análise de variância A decomposição da soma de quadrados do erro em soma de quadrados do erro puro e falta de ajuste, segue da seguinte identidade: Desvios da regressão Erro puro Falta de ajuste A figura a seguir ilustra esta partição com o exemplo do banco comercial para a observação Y13=136, X3 =100.

  29. Y22=136 Erro puro Falta de ajuste Erro

  30. Como todos os Yij, num mesmo nível Xj, tem o mesmo valor ajustado, representados por Yj (chapéu), podemos escrever a soma de quadrados para falta de ajuste como: Observe, na fórmula, que se a função de regressão linear simples está bem ajustada aos dados, então as médias das observações vão estar próximas dos valores estimados e a soma de quadrados para falta de ajuste será pequena Por outro lado, se a função não está bem ajustada aos dados, a SQFA será maior. Como temos c médias na soma de quadrados para falta de ajuste e 2 graus de liberdade são perdidos para estimarmos os parâmetros 0 e 1 do modelo de regressão, o número de graus de liberdade associados a soma de quadrados é c-2. A soma de quadrados do erro puro é dada por:

  31. A seguir apresentamos a tabela da ANOVA geral e para o exemplo do banco comercial. R2=SQR/(SQTOTAL-SQEP)=5141,3/(19882,9-1148,0)=0,2744

  32. Valor p: 0 ,110158 (com 1 e 9 gl e F=3,14) Valor p: 0,005595 (com 4 e 5 gl F=14,80) Conclusão: o modelo de regressão linear simples não é adequado para os dados. Pode-se mostrar que as esperanças dos quadrados médios são dadas por: O QMEP é um estimador não tendencioso da variância 2 , seja qual for o modelo de regressão. O valor esperado do QMFA também é 2 se a função de regressão é linear, pois j=0+1Xj, então o segundo termo é nulo. Por outro lado, se a função de regressão não é linear, j0+1Xj, e a E(QMFA) será maior do que 2 . Então:

  33. Os termos SQE e QME não são precisos quando o modelo de regressão sob hipótese em H0não é a função verdadeira pois a SQE e o QME refletem os efeitos da falta de ajuste e a variabilidade do termo dos erros. Continuaremos usando a mesma terminologia para que se tenha coerência e agora usar o termo erro puro para identificar a variabilidade associada apenas com o termo do erro. O teste aqui aplicado pode ser usado para testar o ajuste de outras funções de regressão. Quando aceitamos que o modelo em estudo é apropriado, na prática é usual usar o quadrado médio do erro, QME, como um estimador de 2, em preferência ao quadrado médio do erro puro, pois o QME contém mais graus de liberdade.

  34. Exercício: é dada uma amostra de 12 valores Admite-se que as variáveis X e Y estão relacionadas de acordo com modelo Yij=0+1Xj+ij, onde os ij são variáveis aleatórias independentes com distribuição normal de média zero e variância 2. a) determine as estimativas dos parâmetros da regressão linear; b) faça a análise de variância e interprete o valor de F; c) verifique se há razões para rejeitar o modelo linear inicialmente proposto. d) fazer um gráfico dos valores ajustados versus resíduos. e) Calcule o coeficiente de determinação (r2)

  35. Regression Summary for Dependent Variable: Y R= ,86154979 R²= ,74226804 Adjusted R²= ,71649485 F(1,10)=28,800 p<,00032 Std.Error of estimate: 2,2361 St. Err. St. Err. BETA of BETA B of B t(10) p-level Intercpt 2,000000 1,290994 1,549193 ,152378 X ,861550 ,160540 2,000000 ,372678 5,366563 ,000316 Analysis of Variance; DV: Y (dozepare.sta) Sums of Mean Squares df Squares F p-level Regress. 144,0000 1 144,0000 28,80000 ,000316 Residual 50,0000 10 5,0000 Total 194,0000 A soma de quadrados do erro do modelo completo (ou soma de quadrados do erro puro) vale:

  36. A soma de quadrados do erro do modelo reduzido (ou soma de quadrados do erro) vale: A soma de quadrados de falta de ajuste vale: O teste F fica:

  37. Algumas medidas para contornar problemas do modelo de regressão Usar um modelo apropriado Modelo de regressão linear simples não é adequado Usar transformações Não linearidade do modelo de regressão • Mudar o modelo • Usar transformação (será visto na próxima seção) Variâncias heterogêneas Usar o método de mínimos quadrados ponderados para estimar os parâmetros Usar transformação (será visto na próxima seção)

  38. Erros correlacionados Usar modelos que levam em consideração a dependência entre os erros (modelos de séries temporais, modelar a matriz de covariâncias) Usar transformação Falta de normalidade A falta de normalidade geralmente vem junto com falta de homogeneidade de variâncias. Frequentemente, a mesma transformação estabiliza a variância e aproxima para normalidade, portanto, primeiro usar uma transformação para estabilizar a variância (será visto na próxima seção). Omissão de variável preditora importante Modificar o modelo (Regressão linear múltipla) Outliers Usar procedimentos de estimação robustos (método dos mínimos quadrados reponderados iterativamente), pois os métodos de mínimos quadrados e máxima verossimilhança produzem estimativas distorcidas.

  39. Transformações Transformação da variável Y ou da variável preditora X, ou de ambas, frequentemente é suficiente para tornar o modelo de regressão linear simples apropriado para os dados transformados. Transformações para não linearidade do modelo Vamos considerar algumas transformações quando a distribuição dos erros é aproximadamente normal e com variância constante. Deve-se realizar uma transformação apenas na variável X. Padrões de relação entre X e Y

  40. Exemplo: Uma pesquisadora estava interessada em estudar o comportamento do pH de tomates Chronos (Y), inteiros minimamente processados, submetidos ao tratamento vácuo, durante 22 dias de estocagem (X), a uma temperatura média de 8oC e umidade relativa de 62,78%. O diagrama de dispersão indica uma relação curvilínea. A variabilidade nos diferentes níveis de X parece constante, portanto, vamos considerar a transformação X’=1/X.

  41. Valores originais e os valores transformados (1/X). PH DIAS 1/DIAS 1 5,700 1,000 1,000 2 5,800 1,000 1,000 3 5,600 1,000 1,000 4 4,800 8,000 ,125 5 4,700 8,000 ,125 6 4,600 8,000 ,125 7 4,600 15,000 ,067 8 4,500 15,000 ,067 9 4,500 15,000 ,067 10 4,400 22,000 ,045 11 4,300 22,000 ,045 12 4,200 22,000 ,045 Os dados continuam mostrando um comportamento curvilíneo. A variabilidade nos diferentes níveis de X continua constante (pois não foi feita a transformação em Y). Exercício: usar a transformação X’=log10(X). Fazer a análise de resíduos para ver se a transformação foi efetiva. * Nota: fazer análise de resíduos para verificar a transformação mais efetiva.

  42. A transformação log10 (dias) linearizou a função de regressão. A variabilidade permanece constante. Transformações para não normalidade e heterocedasticidade

  43. Variâncias heterogêneas e não normalidade dos erros frequentemente aparecem juntas. Necessita-se fazer uma transformação em Y, pois a forma e a dispersão em Y precisam ser modificadas. A transformação em Y pode também eliminar o problema de não linearidade do modelo. Outras vezes uma transformação também em X é necessária para manter ou obter uma relação linear. A figura ilustra algumas formas de relacionamento onde a assimetria e as variâncias aumentam com a reposta média E(Y). Transformações sobre Y: Nota: uma transformação em X pode ser útil ou necessário. Fazer análise de resíduos

  44. Exemplo: objetivo: estimar o volume da árvore em pé a partir de medidas mais facilmente obtidas. Y=volume da árvore em pés cúbicos; X1=diâmetro da árvore em polegadas a 4 pés e 6 polegadas acima do solo; X2=altura da árvore em pés. ALTURA VOLUME UM_VOLUM 70,000 10,300 ,097 65,000 10,300 ,097 63,000 10,200 ,098 72,000 16,400 ,061 81,000 18,800 ,053 83,000 19,700 ,051 66,000 15,600 ,064 75,000 18,200 ,055 80,000 22,600 ,044 75,000 19,900 ,050 79,000 24,200 ,041 76,000 21,000 ,048 76,000 21,400 ,047 69,000 21,300 ,047 75,000 19,100 ,052 74,000 22,200 ,045 85,000 33,800 ,030 86,000 27,400 ,036 71,000 25,700 ,039 64,000 24,900 ,040 78,000 34,500 ,029 80,000 31,700 ,032 74,000 36,300 ,028 72,000 38,300 ,026 77,000 42,600 ,023 81,000 55,400 ,018 82,000 55,700 ,018 80,000 58,300 ,017 80,000 51,500 ,019 80,000 51,000 ,020 87,000 77,000 ,013 Observamos maior variabilidade para valores maiores de altura. A relação entre volume e altura é linear.

  45. Transformação: valores inverso de Y (1/Y). Note que a transformação tornou a variância razoavelmente constante para os diferentes níveis de X. O modelo de regressão linear simples ajustado aos dados com a transformação Y’=1/Y é dado por: Exercício: fazer o gráfico normal de probabilidades dos resíduos. Interpretar.

  46. Indica que o modelo é apropriado para os dados transformados Se desejamos estimar os valores de Y, na unidade original, fazemos: Transformação Box-Cox A transformação Box-Cox automaticamente identifica uma transformação a partir de uma família de transformações potência de Y. A família de transformações potência é dada por: Onde  é um parâmetro a ser determinado a partir dos dados da amostra. Esta família inclui, por exemplo,

  47. O modelo de regressão com erros normais com a variável resposta pertencente a família de transformação potência fica: O procedimento Box-Cox usa o método de máxima verossimilhança para estimar , 0, 1e 2. A função de verossimilhança é dada por: Desta forma, o procedimento de Box-Cox encontra a estimativa de máxima verossimilhança de  para usar na transformação potência.

  48. Procedimento (simples) para obter uma estimativa de  Vamos usar a análise de regressão padrão do modelo de regressão linear simples Vamos fazer uma busca numérica (menor SQE) para uma faixa de valores de lambda, por exemplo: Para cada valor de , as observações Yisão padronizadas do seguinte modo: Faz-se a regressão das observações Wi sobre X e obtêm-se as SQE.. Pode-se mostrar que a estimativa de máxima verossimilhança de é o valor de  para a qual a SQE é mínima.

  49. Exemplo: continuamos com o exemplo das árvores (X=altura e Y=volume). Vamos tomar os seguintes valores para lambda Observe na tabela acima que a transformação Box-Cox indica  próximo de -0,20. Entretanto, a SQE é aproximadamente estável na faixa de -0,30 a 0,00, portanto, vamos usar a transformação logarítmica por ser a preferida dos pesquisadores (é uma transformação que os pesquisadores entendem melhor). A transformação Box-Cox dá um direção no sentido da escolha da melhor transformação. Observe que a transformação usada anteriormente, 1/Y, não foi razoável de acordo com transformação de Box-Cox. (compare os dois gráficos de resíduos). Quando a transformação Box-Cox produz um  próximo de 1, não é necessário transformar os dados.

  50. Indica a adequação do modelo de regressão para os dados transformados (transformação logarítmica)

More Related