1 / 44

Regression Analysis: Sir Francis Galton's Linear Trend Analysis

Galton's study on regression toward mediocrity in hereditary stature. Explore significance of trend and predicted failure time in degradation scenarios. Utilizes linear regression using least squares method. Understand variance analysis and significance testing.

sabin
Download Presentation

Regression Analysis: Sir Francis Galton's Linear Trend Analysis

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. EE-240 Análise de Tendência: Regressão Linear

  2. Sir Francis Galton (1822 - 1911)Antropólogo e meteorologista britânico. Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, v. 15, pp. 246-263, 1885. A altura dos filhos tende a ser aproximar da média da população (“regressão à média”). Atualmente, a palavra “regressão” não é mais empregada com esse sentido.

  3. A tendência é significativa ? Qual é o tempo predito de falha tf ? Cenário considerado Índice associado à degradação Tempo, ou Stress Acumulado

  4. A tendência é significativa ? Qual é o tempo predito de falha tf ? Cenário considerado Índice associado à degradação Tempo, ou Stress Acumulado

  5. A tendência é significativa ? Qual é o tempo predito de falha tf ? Cenário considerado Índice associado à degradação Tempo, ou Stress Acumulado tf

  6. Cenário considerado tf

  7. Tempo Índice de degradação “Ruído” (discrepância com relação à reta) Coeficiente linear (“intercept”) Coeficiente angular (“slope”)

  8. Notação: • Valores observados: Método de Mínimos Quadrados

  9. A reta ajustada passa no centróide do conjunto de pontos (ti, yi): • Os resíduos ei têm média zero:

  10. Os resíduos não são correlacionados com o tempo:

  11. Exemplo

  12. Exemplo

  13. Exemplo

  14. REGRESS Multiple linear regression using least squares. b = REGRESS(y,X) returns the vector of regression coefficients, b, in the linear model y = Xb, (X is an nxp matrix, y is the nx1 vector of observations). >> t = [0 1 4 5 7]' y = [2 1 8 12 13]' X = [ones(5,1) t] b = regress(y,X) b = 0.8916 1.8554 Exemplo

  15. Formulação Matricial:

  16. >> t = [0 1 4 5 7]' >> y = [2 1 8 12 13]' >> X = [ones(5,1) t] >> inv(X'*X)*X'*y ans = 0.8916 1.8554

  17. Análise de Variância (.)2  

  18. Dispersão dos valores de degradação observados Sum of squares about the mean SYY

  19. Dispersão associada ao aumento da degradação (tendência) Sum of squares due to regression SSReg

  20. Dispersão não explicadapelo modelo de tendência Sum of squares about regression (Residual Sum of Squares RSS)

  21. Um índice muito utilizado para avaliar a qualidade da reta ajustada é o coeficiente de determinação R: RSS SYY SSReg Sum of Squares about the mean SYY = Sum of Squares due to regression SSReg + Residual Sum of Squares RSS

  22. Se a reta ajustada passasse por todas as observações, a soma quadrática dos resíduos RSS seria zero (caso ideal). Se o modelo descrever adequadamente o comportamento dos dados, espera-se que RSS seja “pequeno”. Formalmente, para que a tendência linear seja considerada significativa, RSS deve ser significativamente menor que SSReg (teste de hipótese). RSS SYY SSReg

  23. Se houvesse apenas n = 2 observações, o ajuste sempre seria perfeito (RSS = 0): Graus de Liberdade Ajuste Excelente? Faltam graus de liberdade (“degrees of freedom” - df) para verificar a “qualidade” do modelo. Graus de liberdade (df) = No. observações (n) – No. parâmetros ajustados

  24. Somas de quadrados devem ser comparadas levando-se em conta os graus de liberdade associados. Para isso, podem-se usar médias quadráticas: Mean Square = Sum of Squares / Degrees of Freedom (MS = SS / df) RSS SYY SSReg

  25. RSS SYY SSReg

  26. A significância da regressão (isto é, da tendência linear da degradação observada) pode ser avaliada comparando-se MSReg e s2

  27. ei~ N(0, s 2) ei não correlacionado com ej (i j) Assumindo: Pode-se mostrar que: Se b1 = 0 (i.e. se não houver tendência linear) a razão segue uma distribuição F com 1 e (n – 2) graus de liberdade:

  28. Hipótese nula H0: b1 = 0 (não há tendência linear) Hipótese alternativa H1: b1 0 Se F > Fcrit = F1–a(1, n – 2), pode-se rejeitar a hipótese nula com 100  (1 – a) % de confiança. Fcrit Teste F para Significância da Regressão n = 11, a = 0.2  Fcrit = 1.91

  29. >> X = [ones(n,1) t] >> b = inv(X'*X)*X'*y >> yhat = X*b >> ybar = mean(y) >> SYY = (y - ybar)'*(y-ybar) >> SSReg = (yhat -ybar)'*(yhat - ybar) >> R2 = SSReg/SYY >> MSReg = SSReg >> RSS = (y - yhat)'*(y - yhat) >> s2 = RSS/(n-2) >> F = MSReg/s2 >> alpha = 0.05 >> Fcrit = finv(1-alpha,1,n-2) >> p = 1 - fcdf(F,1,n-2)

  30. n = 11 SYY = 135 SSReg = MSReg = 109 R2 = SSReg/SYY = 0.81 RSS = 25 s2 = RSS/(n – 2) = 2.8 F = MSReg/s2 = 39 a = 0.05 Fcrit = 5.1 p = 1.5  10 - 4 Tendência Significativa

  31. n = 11 SYY = 3370 SSReg = MSReg = 849 R2 = SSReg / SYY = 0.25 RSS = 2520 s2 = RSS/(n – 2) = 280 F = MSReg/s2 = 3.0 a = 0.05 Fcrit = 5.1 p = 0.12 Tendência Não Significativa

  32. Sob as hipóteses usuais, pode-se mostrar que: Intervalos de confiança para b0 e b1 • Estimativas não-polarizadas • Variância aumenta com s2 e diminui com n e STT ou seja, a precisão das estimativas melhora com:i) redução no “ruído”ii) aumento da quantidade de dados coletadosiii) aumento no timespan da coleta de dados

  33. Sob as hipóteses usuais, pode-se mostrar que: Intervalos de confiança para b0 e b1 Na prática, não se conhece o valor de s e, em seu lugar, pode-se usar a seguinte estimativa:

  34. Erro-padrão de b0 e b1:

  35. Empregando-se os erros-padrão de b0 e b1 (i.e. usando s no lugar de s), os intervalos de confiança são dados com base em valores críticos da distribuição T de Student. p(x) x

  36. Com 100  (1 – a) % de confiança, b0 e b1 encontram-se entre os seguintes limites: >> s = sqrt(s2) >> tbar = mean(t) >> STT = (t - tbar)'*(t - tbar) >> sb0 = s*sqrt(1/n + tbar^2/STT) >> sb1 = s/sqrt(STT) >> Tcrit = tinv(1-alpha/2,n-2) >> b0_min = b0 - sb0*Tcrit >> b0_max = b0 + sb0*Tcrit >> b1_min = b1 - sb1*Tcrit >> b1_max = b1 + sb1*Tcrit

  37. Exemplo b0:[-0.1562, 4.1146] b1:[0.6369, 1.3588] Valores usados para gerar este exemplo: b0 = 3 b1 = 0.8

  38. Estimação do RUL Estimação do RUL Estimação do RUL Estimação do RUL Estimação do RUL

  39. Estimação do RUL tf estimado

  40. Estimação do RUL a = 0.05

  41. Estimação do RUL Intervalo de confiança para tf

  42. Muito Obrigado!

More Related