1 / 42

Programa :

1. Programa. 3. MLG vars. contínuas. Programa :. Introdução aos MLG Regressão Logística MLG aplicados a variáveis resposta com distribuição contínua MLG aplicados a dados de contagens Análise de variância (ANOVA) com MLG. I. 2. Objectivos. MLG Normal. MLG Gama.

shawna
Download Presentation

Programa :

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. 1. Programa 3. MLG vars. contínuas Programa: • Introdução aos MLG • Regressão Logística • MLG aplicados a variáveis resposta com distribuição contínua • MLG aplicados a dados de contagens • Análise de variância (ANOVA) com MLG I

  2. 2. Objectivos MLG Normal MLG Gama Objectivo dos Modelos para Variáveis Contínuas Encontrar um modelo adequado e parcimonioso que permita descrever a relação entre uma variável aleatória contínua Y e um conjunto de variáveis não-aleatórias preditoras X1, X2, …, Xp Modelos disponíveis MLG Gaussiana Inversa I

  3. 3. Selecção do MLG Selecção do MLG mais adequado MLG Normal Pode ser utilizado quando a variável resposta Y possui distribuição Normal com variância constante em torno do valor médio. MLG Gama Pode ser utilizado quando a variável resposta Y possui distribuição Gama, pelo que a sua variância deverá aumentar à medida que o valor médio aumenta. Uma variável com distribuição Gama só toma valores positivos. I

  4. 4. MLG Normal Introdução ao MLG Normal I

  5. 4. MLG Normal Introdução ao MLG Normal O Modelo Normal é um MLG 1) A Distribuição Normal (Gaussiana) pertence à família exponencial Fórmula geral das distribuições pertencentes à família exponencial: I

  6. 4. MLG Normal g(m) m Introdução ao MLG Normal O Modelo Normal é um MLG 2) A função de ligação é monótona e diferenciável Função de ligaçãoIdentidade, monótona crescente e diferenciável em IR I

  7. 4. MLG Normal Soma dos quadrados dos resíduos resultantes do ajustamento do modelo Os estimadores de b0, b1, …bp de mínimos quadrados coincidem com os estimadores de máxima verosimilhança, i.e., o Modelo Linear clássico e o MLG Normal produzem os mesmos resultados. Introdução ao MLG Normal Estimação dos parâmetros pelo Método da Máxima Verosimilhança Sendo A maximização da função verosimilhança passa por minimizar a soma dos quadrados dos resíduos, que era precisamente o objectivo do Modelo Linear clássico. I

  8. 4. MLG Normal Introdução ao MLG Normal Estimação dos parâmetros pelo Método da Máxima Verosimilhança Derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) Estimador de s : I

  9. 5. MLG Gama Introdução ao MLG Gama I

  10. 5. MLG Gama Introdução ao MLG Gama O Modelo Gama é um MLG 1) A Distribuição Gama pertence à família exponencial Fórmula geral das distribuições pertencentes à família exponencial: Nota: No R, m = a.s , sendo a o “shape parameter” e s o “scale parameter” I

  11. 5. MLG Gama Introdução ao MLG Gama O Modelo Gama é um MLG 2) A função de ligação é monótona e diferenciável Função de ligaçãoIdentidade, monótona crescente e diferenciável em IR Função de ligaçãoInversa, monótona decrescente e diferenciável em IR+ Função de ligaçãoLogarítmica, monótona crescente e diferenciável em IR+ I

  12. 5. MLG Gama Introdução ao MLG Gama Estimação dos parâmetros pelo Método da Máxima Verosimilhança Para o MLG Gama com função de ligação inversa, as derivadas parciais das parcelas da log-verosimilhança (necessárias para o algoritmo IRLS) são Estimador de a : I

  13. 6. Diferenças Diferenças entre os MLG Normal e Gama Y Variável preditora X No MLG Normal a) Y pode tomar valores ≤ 0. b) A relação entre X e Y é linear (se não for transforma-se X). c) A variabilidade de Y em torno do valor esperado pelo modelo (indicado pela recta) é constante (homocedasticidade). I

  14. 6. Diferenças Diferenças entre os MLG Normal e Gama Y Variável preditora X Inversa No MLG Gama a) Y só toma valores positivos. b) A relação entre Y e X pode ser linear ou curvilínea (a forma da curvatura indicia a função de ligação a utilizar). c) A variabilidade de Y em torno do valor esperado pelo modelo aumenta juntamente com este último. Logarítmica Identidade Y X I

  15. 7. Construção ATENÇÃO Como o valor médio de Y varia dentro de uma amostra recolhida, não é possível seleccionar o tipo de modelo mais adequado a partir de um histograma baseado nas observações de Y (Kéry e Hatfield, 2003). Construção de um MLG para uma variável contínua Passos na modelação • Recolha de uma amostra composta por observações da variável resposta (contínua) e de candidatas a variáveis preditoras. • 2. Análise exploratória univariada • 3. Escolha do tipo de MLG (Gama ou Normal) e da função de ligação a utilizar Frequentemente, desconhece-se a priori qual é a distribuição da variável Y que se pretende estudar, pelo que a selecção do tipo de MLG faz-se com base nos dados recolhidos. I

  16. 7. Construção Construção de um MLG para uma variável contínua Exemplo (exemplo3.txt): > ex3<-read.table("C:\\exemplo3.txt",sep=",") > names(ex3) <- c(“Y”,”X”) > hist(ex3$Y, col=“blue”) Medidas geralmente utilizadas: logaritmização ou aplicação de um MLG Gama (ex. Góni et al., 1999). I

  17. 7. Construção O MLG Normal Y = b0 + b1 X pode ser adequado Construção de um MLG para uma variável contínua Exemplo (exemplo3.txt): Análise da variabilidade de Y para cada valor da variável preditora X: > plot(ex3$X,ex3$Y,cex=.5) Observações: A média de Y é maior para maiores valores de X; a relação parece ser linear. A variabilidade de Y em torno da média parece ser constante, não dependendo por isso do valor desta. I

  18. 7. Construção Construção de um MLG para uma variável contínua Exemplo (exemplo3.txt): > k<-glm(ex3$Y~ex3$X,family=gaussian) > hist(k$residuals) > qqnorm(k$residuals) > plot(1:1000,k$residuals) > plot(ex3$X,k$residuals) Sobre qq-plots I

  19. 7. Construção Construção de um MLG para uma variável contínua Outros exemplos: >a<-c(rnorm(1000,mean=5,sd=1), rnorm(1000,10,1),rnorm(1000,15,1)) >hist(a, col=“blue”) >a<-c(rnorm(1000,5,sd=1),rnorm(1000,7.5,1), rnorm(1000,10,1),rnorm(1000,12.5,1)) >hist(a, col=“blue”) I

  20. 7. Construção Construção de um MLG para uma variável contínua Contra-exemplo (exemplo3b.txt): > ex3b<-read.table("C:\\exemplo3b.txt",sep=",") > names(ex3b) <- c(“Y”,”X”) > hist(ex3b$Y, col=“blue”) > plot(ex3b$X,ex3b$Y) I

  21. 7. Construção Construção de um MLG para uma variável contínua Conclusão Para a modelação de variáveis resposta contínuas, a escolha do tipo de MLG (Gama ou Normal) faz-se pela: 1. Análise da variância de Y para diferentes combinações das variáveis preditoras. 2. Análise dos resultados do ajustamento de MLG preliminares com Y~Gama e Y~Normal. I

  22. 7. Construção Construção de um MLG para uma variável contínua Passos na modelação • Recolha de uma amostra composta por observações da variável resposta (contínua) e de candidatas a variáveis preditoras. • 2. Análise exploratória univariada • 3. Escolha do tipo de MLG (Gama ou Normal) e da função de ligação a utilizar • 3. Construção do modelo inicial (exclusão sequencial de preditores não-significativos) • 5. “Afinação” do modelo inicial (teste à linearidade dos preditores) • 6. Finalização do modelo (inclusão de interacções) I

  23. 8. GOF Avaliação da Qualidade de Ajustamento (goodness of fit) Análise Global do Ajustamento 1. Função de Desvio H0: O Modelo Obtido não é significativamente pior que o Modelo Saturado. Se então o modelo é considerado inadequado. Exemplo: exemplo3b (MLG Gama com 1 preditor, n = 200) > qchisq (0.95, 198) [1] 231.8292 > glm(ex3b$Y~ex3b$X,family=Gamma(link=log))$deviance [1] 79.80667 > glm(ex3b$Y~ex3b$X,family=Gamma(link=identity))$deviance [1] 80.14324 > glm(ex3b$Y~ex3b$X,family=Gamma(link=inverse))$deviance [1] 79.67766 > 1-pchisq(glm(ex3b$Y~ex3b$X,family=Gamma(link=log))$deviance,198) [1] 1 I

  24. 8. GOF Avaliação da Qualidade de Ajustamento (goodness of fit) Análise Global do Ajustamento 2. Estatística de Pearson generalizada H0: O Modelo obtido não é significativamente pior que o Modelo Saturado. Previsões do modelo Se então o modelo é considerado inadequado. Turkman e Silva (2000, pg. 75) advertem que a distribuição dos resíduos de Pearson é bastante assimétrica para modelos não-Normais. > m<-glm(ex3b$Y~ex3b$X,family=Gamma(link=log)) > resP<-(ex3b$Y-m$fitted.values)/m$fitted.values > sum(resP^2) [1] 67.32966 > chisq(sum(resP^2),198) [1] 1 I

  25. 8. GOF ATENÇÃO As medidas globais de ajustamento não dispensam a análise dos resíduos individuais. Em particular, valores elevados de R2 nem sempre indicam um bom ajustamento. Avaliação da Qualidade de Ajustamento (goodness of fit) Análise Global do Ajustamento 3. R2 e Pseudo R2 No Modelo Linear Clássico o R2 é amplamente utilizado como medida da qualidade de ajustamento. Porém, a aplicação desta medida em modelos não-lineares produz valores que não pertencem ao intervalo [0,1] ou diminuem à medida que se incluem variáveis preditoras no modelo (Cameron e Windmeijer, 1996). Como alternativa existem várias medidas análogas ao R2 (Pseudo R2), com utilidade discutível. I

  26. 8. GOF Avaliação da Qualidade de Ajustamento (goodness of fit) Exemplo (MLG Normal): R2=0.90 R2=0.30 Y Y X X Histogramas dos resíduos para -2< X< 0 Distribuição assimétrica em torno de 0, sem média nula Distribuição aproximadamente simétrica em torno de 0, com média nula I

  27. 8. GOF Avaliação da Qualidade de Ajustamento (goodness of fit) Análise de Resíduos 1. Resíduos do Desvio MLG Normal: MLG Gama: > resD<-sign(ex3b$Y-m$fitted.values)*(2*(log(m$fitted.values/ex3b$Y) +(ex3b$Y-m$fitted.values)/m$fitted.values))^0.5 > hist(resD) > qqnorm(resD) > qqline(resD) I

  28. 8. GOF Avaliação da Qualidade de Ajustamento (goodness of fit) Análise de Resíduos 2. Resíduos de Pearson > hist(resP) > qqnorm(resP) > qqline (resP) I

  29. 8. GOF Avaliação da Qualidade de Ajustamento (goodness of fit) Primeira utilização (instalar STATMOD.ZIP) Análise de Resíduos 3. Quantile residuals (Dunn e Smyth, 1996) > library(statmod) > m<-glm(ex3b$Y~ex3b$X,family=Gamma(link=log)) > hist(qres.gamma(m,dispersion=0.34)) > qqnorm(qres.gamma(m,dispersion=0.34)) > qqline(qres.gamma(m,dispersion=0.34)) I

  30. 9. Interpretação Interpretação do Modelo Obtido MLG Normal As estimativas dos coeficientes são idênticas ao Modelo Linear clássico. A interpretação dos resultados não apresenta dificuldades. MLG Gama Neste MLG é necessário ter em conta a função de ligação utilizada. As estimativas dos coeficientes variam em amplitude e sinal consoante a f.l. utilizada. 1) Função de ligação identidade: Ao valor esperado adicionam-seb1 unidades. A função de ligação identidade leva-nos a admitir que as variáveis preditoras interagem de uma forma aditiva. I

  31. 9. Interpretação Interpretação do Modelo Obtido MLG Gama 2) Função de ligação logarítmica: O valor esperado pelo modelo factoriza exp(b1) unidades: A função de ligação logarítmica leva-nos a admitir que as variáveis preditoras interagem de uma forma multiplicativa. I

  32. 9. Interpretação Interpretação do Modelo Obtido MLG Gama 3) Função de ligação inversa: Ao contrário do que sucede nas duas outras funções de ligação, em que o sinal da variação do valor esperado é igual ao sinal do coeficiente, neste caso o sinal é oposto. I

  33. 9. Interpretação Interpretação do Modelo Obtido > glm(ex3b$Y~ex3b$X,family=Gamma(link=identity))$coefficients (Intercept) ex3b$X 8.975235 8.419908 > glm(ex3b$Y~ex3b$X,family=Gamma(link=log))$coefficients (Intercept) ex3b$X 2.362919 0.460826 > glm(ex3b$Y~ex3b$X,family=Gamma(link=inverse))$coefficients (Intercept) ex3b$X 0.08504646 -0.02428752 O sinal é negativo porque a associação entre o valor esperado e o preditor é positiva I

  34. 10. Exemplo Exemplo de uma aplicação do MLG Gama (PDF) Exemplo: Negro.pdf I

  35. 10. Exemplo Exemplo de uma aplicação do MLG Gama (PDF) Exemplo: Negro.pdf Objecto de estudo: carotenóides – pigmentos que são alvo de intensa pesquisa pelos biólogos evolucionistas, dado que são responsáveis pela coloração de ornamentos dos animais. Além desta função, os carotenóides também agem como antioxidantes que auxiliam o sistema imunitário. Os vertebrados só obtêm carotenóides através da dieta. Objectivo: ampliar o conhecimento do uso dos carotenóides nas aves, pelo estudo da sua concentração no tecido adiposo do ganso-bravo (sin.: ganso-comum-ocidental) Anser anser (neste caso os carotenóides configuram apenas a coloração do bico). Pesquisaram-se variações nesta concentração associadas ao sexo, à idade, ao fat-score e à espessura da camada adiposa. Metodologia: Ajustamento de dois GLMs gama (função de ligação logarítmica), um para a zona do peito e outro para a zona da barriga; construção do modelo pelo processo forward stepwise (adição sequencial com possibilidade de remoção) I

  36. 10. Exemplo Exemplo de uma aplicação do MLG Gama (PDF) Exemplo: Negro.pdf Resultados Falta informação sobre o coeficiente b0 I

  37. 11. MLG exótico Um MLG exótico Octopus vulgaris Questão: Como se distribui a biomassa de Octopus vulgaris na costa algarvia e a que factores ambientais responde? Pistas: A probabilidade de ocorrência do polvo-comum parece ser maior nas zonas de substrato rochoso. Os polvos maiores encontram-se geralmente a maior profundidade. Definição da variável resposta: Seja B a variável que define a biomassa média (kg) das capturas realizadas em cada um dos pontos representados na figura. Nestes pontos registou-se também a profundidade e a percentagem de substrato coberto por rocha (polvo.txt contém dados fictícios). I

  38. 11. MLG exótico Um MLG exótico Distribuição amostral de B B é uma variável contínua não-negativa; em mais de 200 locais, B=0 (não foram capturados polvos). B=0 Como modelar? I

  39. 11. MLG exótico Um MLG exótico Admitindo que o peso dos indivíduos capturados segue a distribuição Gama, a função de densidade probabilística de B pode ser escrita da seguinte forma: Onde f (y|m,a) é a f.d.p. de uma variável aleatória com distribuição Gama (m,a), p é a probabilidade de captura de polvos e Função de verosimilhança Produtório que depende apenas de p Produtório que depende apenas de m e a Função de verosimilhança de n variáveis aleatórias com distribuição Gama Função de verosimilhança de n variáveis aleatórias com distribuição Bernoulli I

  40. 11. MLG exótico Um MLG exótico Ou seja, para encontrarmos as estimativas de máxima verosimilhança dos coeficientes b0, b1, l0 e l1 presentes nas expressões: onde R designa a % de substrato rochoso e P a profundidade (g1 e g2 são funções de ligação) podemos maximizar separadamente e através de um Modelo de Regressão Logística (ou um MLG clog-log ou um MLG probit) e um MLG Gama. I

  41. 11. MLG exótico Exercício Modelar a biomassa de O. vulgaris em função da % de substrato rochoso e da profundidade. Soluções: b0=-1.4, b1=3.8, l0= 1.22, l1= 0.004 (log link) Sobre este assunto Ye et al. (2001) – modelação de pescas (MLG gama com zeros) Feuerverger (1979) – modelação de dados de precipitação Tu (2002) – discussão geral sobre modelação de variáveis com muitos zeros Um MLG exótico Metodologia 1) Modela-se a probabilidade de captura de O. vulgaris por meio de um Modelo de Regressão Logística (a informação sobre o peso dos indivíduos é descartada; os locais onde se capturaram polvos codificam-se como 1s), tendo como variável preditora a percentagem de substrato rochoso. 2) Modela-se o peso médio dos polvos capturados por meio de um MLG Gama (os locais em que não foram capturados polvos são descartados), tendo como variável preditora a profundidade. 3) Obtêm-se estimativas de biomassa de O. vulgaris pela multiplicação dos valores esperados produzidos pelos dois modelos. I

  42. 12. Bibliografia Bibliografia • Cameron, A.C., Windmeijer, F.A.G., 1996. An R-squared measure of goodness of fit for some common nonlinear regression models. Journal of Econometrics 77(2): 329-342. • Dunn, P.K., Smyth, G.K., 1996. Randomized quantile residuals. Journal of Computational and Graphical Statistics 5: 236-244. • Feuerverger, A., 1979. On some methods of analysis for weather experiments. Biometrika 66(3): 655-658. • Góni, R., et al., 1999. Application of generalized linear modelling to catch rate analysis of Western Mediterranean fisheries: the Castellón trawl fleed as a case study. Fisheries Research 42: 291-302. • Kéry, M., Hatfield, J.S., 2003. Normality of raw data in general linear models: the most widespread myth in statistics. Bulletin of the Ecological Society of America 84(2): 92-94. • Negro, J.J., et al., 2001. Fat stores in birds: na overlooked sink for carotenoid pigments? Functional Ecology 15: 297-303. • Tu, W., 2002. Zero-inflated data. In: El-Shaarawi, A.H., Piegorsch, W.W., Encyclopedia of environmetrics. John Wiley & Sons, Ltd, Chichester. • Ye, Y., et al., 2001. Use of generalized linear models to analyze catch rates having zero values: the Kuwait driftnet fishery. Fisheries Research 53: 151-168. PDF PDF PDF PDF PDF PDF PDF Continuous.PDF Survival.PDF Venables.PDF I

More Related