440 likes | 517 Views
Galton's study on regression toward mediocrity in hereditary stature. Explore significance of trend and predicted failure time in degradation scenarios. Utilizes linear regression using least squares method. Understand variance analysis and significance testing.
E N D
EE-240 Análise de Tendência: Regressão Linear
Sir Francis Galton (1822 - 1911)Antropólogo e meteorologista britânico. Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, v. 15, pp. 246-263, 1885. A altura dos filhos tende a ser aproximar da média da população (“regressão à média”). Atualmente, a palavra “regressão” não é mais empregada com esse sentido.
A tendência é significativa ? Qual é o tempo predito de falha tf ? Cenário considerado Índice associado à degradação Tempo, ou Stress Acumulado
A tendência é significativa ? Qual é o tempo predito de falha tf ? Cenário considerado Índice associado à degradação Tempo, ou Stress Acumulado
A tendência é significativa ? Qual é o tempo predito de falha tf ? Cenário considerado Índice associado à degradação Tempo, ou Stress Acumulado tf
Tempo Índice de degradação “Ruído” (discrepância com relação à reta) Coeficiente linear (“intercept”) Coeficiente angular (“slope”)
Notação: • Valores observados: Método de Mínimos Quadrados
A reta ajustada passa no centróide do conjunto de pontos (ti, yi): • Os resíduos ei têm média zero:
REGRESS Multiple linear regression using least squares. b = REGRESS(y,X) returns the vector of regression coefficients, b, in the linear model y = Xb, (X is an nxp matrix, y is the nx1 vector of observations). >> t = [0 1 4 5 7]' y = [2 1 8 12 13]' X = [ones(5,1) t] b = regress(y,X) b = 0.8916 1.8554 Exemplo
>> t = [0 1 4 5 7]' >> y = [2 1 8 12 13]' >> X = [ones(5,1) t] >> inv(X'*X)*X'*y ans = 0.8916 1.8554
Análise de Variância (.)2
Dispersão dos valores de degradação observados Sum of squares about the mean SYY
Dispersão associada ao aumento da degradação (tendência) Sum of squares due to regression SSReg
Dispersão não explicadapelo modelo de tendência Sum of squares about regression (Residual Sum of Squares RSS)
Um índice muito utilizado para avaliar a qualidade da reta ajustada é o coeficiente de determinação R: RSS SYY SSReg Sum of Squares about the mean SYY = Sum of Squares due to regression SSReg + Residual Sum of Squares RSS
Se a reta ajustada passasse por todas as observações, a soma quadrática dos resíduos RSS seria zero (caso ideal). Se o modelo descrever adequadamente o comportamento dos dados, espera-se que RSS seja “pequeno”. Formalmente, para que a tendência linear seja considerada significativa, RSS deve ser significativamente menor que SSReg (teste de hipótese). RSS SYY SSReg
Se houvesse apenas n = 2 observações, o ajuste sempre seria perfeito (RSS = 0): Graus de Liberdade Ajuste Excelente? Faltam graus de liberdade (“degrees of freedom” - df) para verificar a “qualidade” do modelo. Graus de liberdade (df) = No. observações (n) – No. parâmetros ajustados
Somas de quadrados devem ser comparadas levando-se em conta os graus de liberdade associados. Para isso, podem-se usar médias quadráticas: Mean Square = Sum of Squares / Degrees of Freedom (MS = SS / df) RSS SYY SSReg
RSS SYY SSReg
A significância da regressão (isto é, da tendência linear da degradação observada) pode ser avaliada comparando-se MSReg e s2
ei~ N(0, s 2) ei não correlacionado com ej (i j) Assumindo: Pode-se mostrar que: Se b1 = 0 (i.e. se não houver tendência linear) a razão segue uma distribuição F com 1 e (n – 2) graus de liberdade:
Hipótese nula H0: b1 = 0 (não há tendência linear) Hipótese alternativa H1: b1 0 Se F > Fcrit = F1–a(1, n – 2), pode-se rejeitar a hipótese nula com 100 (1 – a) % de confiança. Fcrit Teste F para Significância da Regressão n = 11, a = 0.2 Fcrit = 1.91
>> X = [ones(n,1) t] >> b = inv(X'*X)*X'*y >> yhat = X*b >> ybar = mean(y) >> SYY = (y - ybar)'*(y-ybar) >> SSReg = (yhat -ybar)'*(yhat - ybar) >> R2 = SSReg/SYY >> MSReg = SSReg >> RSS = (y - yhat)'*(y - yhat) >> s2 = RSS/(n-2) >> F = MSReg/s2 >> alpha = 0.05 >> Fcrit = finv(1-alpha,1,n-2) >> p = 1 - fcdf(F,1,n-2)
n = 11 SYY = 135 SSReg = MSReg = 109 R2 = SSReg/SYY = 0.81 RSS = 25 s2 = RSS/(n – 2) = 2.8 F = MSReg/s2 = 39 a = 0.05 Fcrit = 5.1 p = 1.5 10 - 4 Tendência Significativa
n = 11 SYY = 3370 SSReg = MSReg = 849 R2 = SSReg / SYY = 0.25 RSS = 2520 s2 = RSS/(n – 2) = 280 F = MSReg/s2 = 3.0 a = 0.05 Fcrit = 5.1 p = 0.12 Tendência Não Significativa
Sob as hipóteses usuais, pode-se mostrar que: Intervalos de confiança para b0 e b1 • Estimativas não-polarizadas • Variância aumenta com s2 e diminui com n e STT ou seja, a precisão das estimativas melhora com:i) redução no “ruído”ii) aumento da quantidade de dados coletadosiii) aumento no timespan da coleta de dados
Sob as hipóteses usuais, pode-se mostrar que: Intervalos de confiança para b0 e b1 Na prática, não se conhece o valor de s e, em seu lugar, pode-se usar a seguinte estimativa:
Empregando-se os erros-padrão de b0 e b1 (i.e. usando s no lugar de s), os intervalos de confiança são dados com base em valores críticos da distribuição T de Student. p(x) x
Com 100 (1 – a) % de confiança, b0 e b1 encontram-se entre os seguintes limites: >> s = sqrt(s2) >> tbar = mean(t) >> STT = (t - tbar)'*(t - tbar) >> sb0 = s*sqrt(1/n + tbar^2/STT) >> sb1 = s/sqrt(STT) >> Tcrit = tinv(1-alpha/2,n-2) >> b0_min = b0 - sb0*Tcrit >> b0_max = b0 + sb0*Tcrit >> b1_min = b1 - sb1*Tcrit >> b1_max = b1 + sb1*Tcrit
Exemplo b0:[-0.1562, 4.1146] b1:[0.6369, 1.3588] Valores usados para gerar este exemplo: b0 = 3 b1 = 0.8
Estimação do RUL Estimação do RUL Estimação do RUL Estimação do RUL Estimação do RUL
Estimação do RUL tf estimado
Estimação do RUL a = 0.05
Estimação do RUL Intervalo de confiança para tf