1 / 131

Análise de Sobrevivência IM - UFRJ Professor: Dani Gamerman

Análise de Sobrevivência IM - UFRJ Professor: Dani Gamerman. 1. CONCEITOS ESTATÍSTICOS EM SOBREVIVÊNCIA 1.1 Introdução Análise de Sobrevivência é o estudo de indivíduos (itens observados) onde um evento bem definido (falha) ocorre depois de algum tempo (tempo de falha). Exemplos:

wind
Download Presentation

Análise de Sobrevivência IM - UFRJ Professor: Dani Gamerman

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Análise de Sobrevivência IM - UFRJ Professor: Dani Gamerman

  2. 1. CONCEITOS ESTATÍSTICOS EM SOBREVIVÊNCIA 1.1 Introdução Análise de Sobrevivência é o estudo de indivíduos (itens observados) onde um evento bem definido (falha) ocorre depois de algum tempo (tempo de falha). Exemplos: (i) tempo de falha de equipamentos industriais (engenharia) (ii) tempo de sobrevida de um paciente (medicina) (iii) tempo de duração do período de desemprego ou greve (economia) Definindo algumas características: (i) as variáveis de resposta são não-negativas (ii) principalmente univariados e contínuos (iii) presença comum de censura Primeiramente, é importante ter uma definição precisa de tempo de falha. Isto requer especificações sobre:  origem do tempo de falha  unidade de medida do tempo (calendários, tempo de operação, milhagem, número de ciclos)  falha (mais fácil na medicina: morte, não tão fácil na engenharia).

  3. Exemplo: tempo de falha de um carro Questões a serem feitas: Quando começar a contar o tempo? Como medir o tempo de falha? O que é falha? Nós devemos estudar melhor todas essas especificações. 1.2 Resultados em Sobrevivência 1) Descritiva vs Inferência Estatística Em algumas aplicações, características descritivas simples como média simples, função de sobrevivência e gráficos de probabilidades são suficientes. Em outras aplicações, intervalos de confiança ou taxa de influência de determinadas variáveis são exigidas. 2) Censura Um sistema pode falhar mesmo antes que todos os itens tenham falhado em um determinado tempo. Este fato tem determinadas razões. Os itens são normalmente censurados à direita. Mas podem ainda ser censurados à esquerda ou podemos determinar um intervalo de censura(mais difícil de analisar) 3) Paramétrico ou Não-Paramétrico Ambos serão vistos no curso. E ainda os Semi-Paramétricos serão apresentados.

  4. 4) Amostras Simples vs Modelos de Regressão Se os itens pertencem à mesma população (são similares), então uma análise de amostras simples deve ser utilizada. Se os itens não são da mesma população e se suas diferenças podem ser contadas (máquinas submetidas a pressões distintas), então estas diferenças devem ser consideradas na Análise. Variáveis para medir tais diferenças (pressão) são denominadas variáveis explanatórias ou covariáveis. Ambos serão vistos no decorrer do curso. 5) Clássica vs Bayesiana Ambas serão rapidamente revisadas e vistas neste curso. Modelos Bayesianos tiveram no passado a desvantagem de que sua Análise através de Modelos de Regressão requeriam muito esforço computacional . Isto, com o tempo, foi se tornando cada vez menos importante. Métodos bayesianos são importantes em estudos de sobrevivência porque freqüentemente temos informações de experiências anteriores que podem usualmente serem combinadas com os dados e incorporadas à análise.

  5. 1.3 Sistema Reparáveis e Não-Reparáveis Outra importante definição, embora somente depois será vista neste curso. Considere o experimento com um sistema reparável e os seguintes tempos de falha cumulativos: 203, 286, 481, 873, 1177, 1438, 1852, 2091, 2295, 2632. Vejamos alguns itens interessantes sobre se a taxa de falha aumenta ou diminui com o tempo. Se o sistema é tomado como não reparável, então o tempo entre falhas é considerado. Um exemplo de análise simples na Figura 1.1 indica o aumento da taxa de falha. Conforme o tempo passa, é mais provável que uma máquina deste tipo venha a falhar. Para sistemas reparáveis o exemplo da análise simples na Figura 1.2 indica taxa de falha constante em relação ao tempo. Se os tempos entre falhas são ordenados e o sistema é reparável, a Figura 1.3 indica que a taxa de falha é decrescente. Sistemas reparáveis com processo de tempo de falha ideais não serão vistos neste curso.

  6. 1.4 Componentes e Sistemas Reparáveis Neste curso, trataremos de componentes reparáveis sem referência aos sistemas que podem conter tais componentes. Porém, é importante afirmar que Sistemas Reparáveis também são uma importante área de estudo. Os sistemas mais simples são:  Sistemas em Série: o sistema só funciona se todas as componentes funcionarem.  Sistemas Paralelos: o sistema só falha se todas as componentes falharem  Sistemas k out of n : o sistema só funciona se pelo menos k das n componentes funcionarem(se k=1 paralelo e se k=n  série). Esses sistemas formam grande parte dos grupos de sistemas chamados Sistemas Coerentes. Para entender o conceito de sistemas coerentes é útil definir o indicador de funcionamento xi para a componente i e a função de estrutura das n componentes do sistema: 1, se o sistema funciona. (x1,x2,...,xn) = 0, caso contrário.

  7. Sistemas coerentes têm função de estrutura que satisfaz: (i) (1,1,..., 1)=1 (ii) (0, 0,..., 0)=0 (iii)  é não-decrescente nesses argumentos. Outros sistemas são:  Sistemas multi-estados: onde as componentes podem estar em vários estados (não só funcionando ou falhando)  Sistemas load-sharing: onde a carga do sistema é distribuída entre as componentes que funcionam. 1.5 Distribuições Binomial e Hipergeométrica Análises estatísticas simples são obtidas se os tempos de falha são dicotomizados:  funcionar até certo tempo (digamos tempo de falha): defeituoso.  funcionar além deste tempo: não-defeituoso. Distribuições Binomial e Geométrica são para um número X de itens defeituosos em uma amostra de tamanho n e probabilidade p do item ser defeituoso. Se uma amostra com reposição (ou que não seja de uma população muito grande), a distribuição Binomial é obtida como:

  8. P(X=k) = n pk(1-p)n-k onde 0 k n • k • E(X)=np e Var(X)=np(1-p) • Quando p é desconhecido, podemos estimá-lo como: • P = X/n e Var(X) = np(1-p) • Para n grande, np5 e n(1-p)5, a Binomial é aproximada pela distribuição Normal com momentos conforme os descritos anteriormente. • Para uma aproximação ao nível de significância 100(1-)%, o intervalo de confiança para p é dado por: • (X/n - z/2 (X(n-X)/n3)1/2, X/n + z/2 (X(n-X)/n3)1/2) • onde z/2 é o quartil(1-/2) da distribuição N(0,1). • Outra aproximação para n grande e =np (p pequeno) é a distribuição de Poisson com média . • Equivalentemente testando a independência e constância de p. • Se as amostras são sem reposição e de uma população finita, a distribuição Hipergeométrica é obtida como: • n N-n • P(X=k)= k K-k k=0,1,..,K • N • K

  9. onde N é o tamanho da população e K é a população de itens defeituosos. E(X)=np e Var(X)=np(1-p)N-n para p=K/N N-1 1.6 Processos de Poisson Usado particularmente para sistemas reparáveis. Assume-se primeiramente que é observada uma série de ocorrências em linha. (As ocorrências devem ser falhas sucessivas do sistema e a linha representa o tempo real). Assume-se que: (i) as falhas ocorrem em intervalos disjuntos e independentes (ii) ocorrência = falha (iii) a taxa de falha é uma constante . Então se X é o número de falhas num intervalo de tamanho s, X tem distribuição de Poisson com média s. Também, os tempos entre falhas são independentes e exponencialmente distribuídos com MTFB -1. Isto indica que a exponencial com linha base (solo) é a distribuição para o tempo de falha. Isto pode ser generalizado para permitir taxas de falha não constantes.  Processo de Poisson não-homogêneo.

  10. 2. DISTRIBUIÇÕES DE PROBABILIDADE 2.1 Introdução Em muitas áreas de aplicação da estatística, o ponto inicial para avaliação da variável de interesse é a distribuição Normal. Isto pode resultar de uma consideração pragmática pura ou da argumentação baseada no Teoria do Limite central, que diz que se uma variável aleatória é a soma de um grande número de pequenos efeitos , então a distribuição é aproximadamente Normal. No contexto de sobrevivência, o caso da normalidade é muito menos usado. Para que possamos entender, tempos de vida e resistência são quantidades positivas. Do ponto de vista do modelo, é natural começar a pensar no processo de Poisson, idéias já discutidas na sessão 1.6, baseado na distribuição Exponencial. Contudo esta distribuição tem uma limitada aplicabilidade na prática, generalizações da Exponencial como a Gamma e a Weibull já provarão ter maior valor prático em modelos de sobrevivência. Estas e outras distribuições de probabilidade comumente encontradas em estudos de sobrevivência são discutidas nas sessões 2.3 à 2.7. Outros aspectos centrais da discussão sobre análise de sobrevivência são as funções de sobrevivência e de risco, e a natural ocorrência de dados censurados. Estes assuntos são discutidos nas sessões 2.2 e 2.8.

  11. Finalmente neste capítulo colocamos os resultados probabilísticos em contexto de análise de dados. Contudo métodos gerais para ajustar distribuições de probabilidades são desenvolvidos no Capítulo 3, algumas técnicas básicas são apresentadas na sessão 2.9 à 2.11. 2.2 Conceitos Iniciais para a Distribuição de Sobrevivência Chamaremos de T a variável aleatória que representará o tempo de falha dentro do nosso estudo. Aqui a noção de tempo é usada de maneira genérica. Ele pode ser realmente tempo ou qualquer outra variável não negativa, desde que haja um número qualquer de falhas ou quebras associado a variável. Denotamos : sendo a distribuição de T e denotamos : sendo a Função de Sobrevivência de T. Note que alguns autores definem F(t) e S(t) por Pr(T<=t) e Pr(T>t) respectivamente. Na prática isto não faz diferença para os resultados que se seguem quando T é uma variável continua, este caso será considerado a partir de agora. Nós iremos assumir que T tem a função de densidade :

  12. tal que a probabilidade da unidade falhar em um curto espaço de tempo [t , t+t) é : Considere a probalidade condicional do item falhar naquele instante [t , t+t) e não ter falhado até o tempo t : Podemos pensar como a probabilidade do item iminentemente falhar em t. A função h(t) é dada por : esta é a função de risco, de taxa de falha, ou hazard e é um indicador natural da propensão a falha após uma unidade de tempo ter transcorrido. A função de taxa de falha acumulada é dada por : e concluímos que : 2.1

  13. Note que f, F, S, h e H são funções tais que o conhecimento de uma delas nos permite o cálculo de todas as outras. • Alguns casos típicos são discutidos aqui : • Se h(t)= é constante então H(t)= t e S(t)=exp(-t ) é a distribuição de sobrevivência exponencial com parâmetro . A densidade correspondente é f(t)= exp(-t). • Se h(t) é uma função crescente de t , então T é dito ter uma taxa de falha crescente (IFR). Isto á apropriado quando a unidade medida tem relação com fadiga ou danos cumulativos. • Se h(t) é uma função decrescente de t, então T é dito ter um taxa de falha decrescente (DFR). Isto pode ocorrer, por exemplo, quando o processo diminui a quantidade produzida ao longo do tempo diminuindo o risco de falha. Isto é comum em alguns ambientes de produção de componentes eletrônicos. • Outro caso comum mencionado é o “bat-tub harzard” onde a função de taxa de falha é decrescente inicialmente e depois torna-se crescente. Isto costuma acontecer em linha de produção onde os componentes iniciais tem uma qualidade melhor que os finais provocando este tipo de oscilação na taxa de falha.

  14. 2.3 A Distribuição Exponencial Como mencionado na sessão 1.6, a distribuição exponencial é o ponto natural de início para uma distribuição de sobrevivência. Relembrando temos que a Distribuição de Sobrevivência, hazard e função de densidade tem a seguinte forma: onde  é um parâmetro positivo, freqüentemente chamado de taxa, e onde t>0. Note também que a distribuição exponencial tem média 1/  e variância 1/ 2. A forma da densidade é a mesma para todos os , e 1/  age como um parâmetro de escala. Então, por exemplo, se o tempo de sobrevivência, T, de um certo tipo de componente é medido em minutos e ele é distribuído exponencialmente com taxa igual , então T*=T/60 medido em horas é distribuído exponencialmente com taxa 60 . Uma outra formulação comum é termos a parametrização = 1/ no lugar de . A Figura 2.1 mostra duas densidades da distribuição exponencial com diferentes taxas. 2.2

  15. As funções hazard correspondentes são apresentadas na Figura 2.2. Nós iremos mostrar que a Distribuição Exponencial é um caso especial das Famílias de Distribuições Weibull e Gamma.

  16. 2.4 Distribuições Weibull e Gumbel Uma variável aleatória Weibull (W. Weibull (1939,1951)) possui a seguinte função de sobrevivência: para t>0 e onde  e  são parâmetros positivos, sendo  um parâmetro de escala e  um parâmetro de forma. Note que quando =1, obtemos uma Distribuição Exponencial com parâmetro =1/ . 2.3

  17. A função de falha (hazard) da Weibull é : Então temos DFR para <1, constante para =1 e IFR para >1. Em particular, para 1<<2 a função de falha se aproxima de uma função linear e para =2 a função é linear; para >2 a função cresce rapidamente acima de uma função linear. A função de taxa de falha (hazard) da Weibull para diferentes valores dos parâmetros é mostrada na Figura 2.3. A função de densidade da Weibull é para t > 0. 2.4

  18. A média e a variância são dadas por : 2.5

  19. veja , por exemplo, Abramowitz and Stegun (1972, CAPITULO 6). Um programa em fortran para calcular a equação 2.5 é dado em Griffiths and Hill (1985, pp. 243-6), que é baseado em um programa anterior de Pike e Hill (1966). Quando  é grande (>5), a média e a variância são aproximadamente  e 1.642/ respectivamente. A forma da densidade depende de . Na Figura 2.4 são mostradas algumas funções de densidade da Weibull para diferentes valores de .

  20. A Distribuição Weibull é provavelmente a mais utilizada das distribuições em análise de sobrevivência. Uma possível explicação para isto se deve ao seu comportamento nos extremos da distribuição, à possibilidade de variarmos o seu formato e em particular a possibilidade de utilizá-la como uma generalização da Exponencial. A Distribuição de Gumbel tem a seguinte função de sobrevivência : para , onde  é o parâmetro de locação e  é o parâmetro de escala. Esta distribuição também começa com limite de distribuição mínimo, veja Galambos (1978), e tem uma taxa de falha exponencial crescente. Em alguns casos permite valores negativos com probabilidades positivas. Mais comumente a distribuição de Gumbel é gerada através de Log(t) quando T tem uma distribuição Weibull. A relação entre os parâmetros da Gumbel e da Weibull é a seguinte : A função de densidade da Gumbel é a seguinte : 2.6

  21. para , e tem a mesma forma para todos os parâmetros. Note que a média e a variância da Gumbel são  - e (2/6)2, respectivamente, onde =0.5772 é a constante de Euler, e a distribuição é negativamente inclinada. A densidade e a taxa de falha (harzard) para a distribuição de Gumbel com =0 e =1 é mostrada nas Figuras 2.5 e 2.6 respectivamente.

  22. 2.5 Distribuições Normal e Lognormal A distribuição Normal é a distribuição mais comumente utilizada em Estatística. Em confiabilidade é geralmente usada como um modelo para log T. A função de densidade da distribuição lognormal é descrita pela equação abaixo: As funções de Sobrevivência e de Risco podem ser escritas somente em termos de integrais. Algumas densidades e funções de risco são plotadas na figura 2.9 e 2.10. A função de Risco é crescente para valores de t próximos de zero e eventualmente decrescente quando .

  23. 2.6 Distribuições Gama e Gama GeneralizadaA distribuição Gama é descrita pela equação abaixo: Densidades são positivas (ver figura 2.11) mas tendem para normal quando é grande. As funções de Sobrevivência e risco podem ser escritas somente em termos de integrais. A função de risco é decrescente para , constante para (exponencial) e crescente para (ver figura 2.12). A Gama é obtida como a distribuição do -ésimo tempo de falha em um processo de Poisson .

  24. A distribuição gama generalizada é descrita pela equação abaixo: A distribuição gama generalizada inclui os seguintes casos especiais:

  25. 2.7 Distribuição Exponencial por Partes Uma generalização da distribuição exponencial Temos abaixo a função de Risco: Vantagem: Pode-se aproximar qualquer função de Risco desejada. Desvantagem: Grande número de parâmetros (“não-paramétrica”)

  26. 2.8 Censura Observações incompletas freqüentemente ocorrem nos estudos de sobrevivência e confiabilidade. Nos testes de confiabilidade é comum aguardar até todos os itens falharem. Nos estudos de sobrevivência, pacientes abandonam o tratamento ou continuam vivos depois do final dos estudos. Isso resulta em algumas observações incompletas, ditas censuradas. Tipos comuns de censura a direita: Tipo I: Observações são acompanhadas até um tempo c fixado inicialmente. Tipo II: Observações são acompanhadas até obter-se um número pré-determinado de falhas. Tipo III: Aleatória à direita: Associado aos tempos de falha existem onde observa-se apenas e onde é o tempo de falha observado, e independentes

  27. 2.9 Métodos dos Momentos para Dados Simples: Sem Censura Métodos informais (métodos formais serão apresentados no próximo capítulo) Baseado nos momentos e estimativas simples Suponha que t1,...,tn sejam tempos de falha observados. Exemplo 2.1: T – número de milhões de revoluções de rolimã até a falha. Dados: 17.88, 28.92, 33.00, 41.52, 42.12, 45.60, 48.40, 51.84, 51.96, 54.12, 55.56, 67.80, 68.64, 68.64, 68.88, 84.12, 93.12, 98.64, 105.12, 105.84, 127.92, 128.04, 173.40 (ordenados por conveniência) Média amostral: = 72.22 e desvio padrão amostral (s.d.): st = 37.49 Recai segundo §2.3 que a média e o s.d. coincidem no modelo exponencial. Neste caso, /st se aproxima de 2, logo o modelo exponencial não é apropriado. Para ajustar Weibull e lognormal, é mais fácil trabalhar com xi = log ti. Novamente, média amostral: = 4.150 e s.d. amostral: sx = 0.534.

  28. Estes cálculos valem para a média μ –γσ e s.d. πσ/√6 da Gumbel, trazendo assim os momentos estimados = 0.416 e = 4.390. Em termos dos parâmetros da Weibull, temos: = exp( ) = 80.64 e = 1/ =2.40, diferente do 1. De forma similar, os parâmetros estimados da lognormal são = 4.150 e = 0.534. Outra aproximação é baseada na função de sobrevivência empírica dada por é um estimador não paramétrico de S(t) n possui distribuição binomial com média S(t) e , segundo §1.15, um IC a 100%(1-α) para S(t) dado por De forma similar, a função de taxa de falha acumulada empírica é dada por Onde o s.d. é dado por

  29. Os gráficos destas funções empíricas podem ser usados para checar a adequação das hipóteses dos parâmetros. • Assuma os tempos ordenados t(1) < ... < t(n) . • Salto de 1 / n tempo t(i). • Realocado por 1- (i – 0.5) / n . (Outra forma possível) Modelo Weibull: S(t) = exp {- (t / α)} • Log S(t) = - (t / α) log{-log S(t)}=  log t –  log α • Se o modelo Weibull é apropriado, então o gráfico de • é aproximadamente uma linha reta. • Inicialmente os parâmetros estimados serão obtidos a partir de : • - log α = intercepto •  = coeficiente angular • Modelo lognormal: , – função de distribuição de N(0,1). • Se o modelo lognormal for apropriado, então o gráfico de (log t(i), -1{(i-0.5)/n}) será uma linha reta.

  30. Inicialmente os parâmetros estimados serão dados por : -μ / σ= intercepto 1 / σ = coeficiente angular Estes gráficos são dados nas figuras 2.13 e 2.14 do exemplo 2.1. Inicialmente os parâmetros estimados são (entre parênteses por momentos): Weibull:  =2.3(2.4) e α = 77.3(80.6) Lognormal: μ = 4.2(4.15) e σ = 0.56(0.53) Diferentemente do baseado pelo método dos momentos, o gráfico das probabilidades pode ser usado com censura. Eles são definidos por t < t (r ), para r tempos de falha (não censurados). 2.10 Estimador do Produto-Limite O estimador do produto-limite (PL) ou de Kaplan-Meyer é um estimador não paramétrico da função de sobrevivência. Ele coincide com a função empírica de sobrevivência quando não há censura.

  31. a1 < ... < ak – k tempos de falha distintos (a0 = 0) d1, ...dk – número de falhas em cada tempo de falha (d0=0) n1 < ... < nk – número de itens em risco em cada tempo de falha (nk = 0) O estimador do PL é: Esta é uma função escada começando do 1 para t = 0 e alterando-se a cada ak. É como se a distribuição de falhas se concentrasse nos pontos a1, ... , ak. De acordo com a teoria assintótica , média e variância de são dados por S(t) e H(t) pode ser estimado de forma similar por De forma mais simples e intuitiva, podemos estimar H(t) usando que é relacionado ao estimador . Pode-se utilizar análise gráfica do estimador do PL para avaliação da adequação de modelos Weibul e log-normal.

  32. Exemplo 2.3: Resistência de corda a uma certa tensão (em unidades codificadas). • Principais interesses: • Qual a confiabilidade de uma corda após 53 unidades de tensão ? • O modelo de distribuição Weibull é apropriado ? • Da tabela 2.2 , • e • Um IC de 95% para S(53) é dado por • (0.6849-1.69x0.0725, 0.6849+1.69x0.0725)=(0.54,0.83) • Fora 3 pontos isolados a figura 2.17 parece com uma linha reta. • Investigação similar com modelo lognormal apresenta os mesmos resultados.

  33. 3. MÉTODOS ESTATÍSTICOS PARA AMOSTRAS SIMPLES 3.1 Introdução Final do último capítulo: métodos estatísticos simples. Este capítulo: métodos mais formais, máxima verossimilhança, inferência bayesiana dinâmica. 3.2 Estimação por Máxima Verossimilhança: Generalidades Suponha uma amostra de tempos de vidas de uma certa população. Todos os possuem densidade , onde Caso as observações não sejam censuradas então, a função de verossimilhança é para observações censuradas (a direita): A contribuição para a verossimilhança é a probabilidade de sobrevivência após o tempo de censura. Separando os dados em conjuntos disjuntos: C - itens censurados e U - para itens não censurados.

  34. Para outras formas de censura existem outras expressões. É mais conveniente trabalhar com Estimativa da máxima verossimilhança (EMV) de Normalmente são obtidos resolvendo Assumindo que q(p;θ) como o quantil 1-p de T, ou seja, Pr(T≥ q(p;θ) = S(q(p;θ)) = p

  35. J é a informação observada da matriz • Em particular, • O EMV possui muitas vantagens sobre todos os outros métodos clássicos de estimação: • Ele é universal; • Ele é invariante; • Ele possui boas propriedades assintóticas: • Consistência, normalidade assintótica e eficiência; • Distribuição assintótica é facilmente encontrada. • 3.3 Máxima Verossimilhança (MV) estimação : ilustrações

  36. Figura 3.1 Log-Verossimilhança para o tempo de vida de um componente de um avião com distribuição Exponencial. A reta no gráfico foi feita para mostrar o intervalo de confiança 95% para lambda, baseado em W. Note a grande diferença na calda

  37. 3.4 Intervalos de Confianças e Testes q = (q1,...,qn) está divida dentro (q(A), q(B)) das dimensões ma e mb. Nós interessa testar a Hipótese H: q(A)= q0(A) ( , ) é um EMV de (q(A),q(B)) (A0) é um EMV de q(B) de H. Estão disponíveis dois procedimentos: 1)   Onde temos para H , que: W(q0(A)) = 2{i ( , ) - i[q0(A), (A0)]} ~ c2( ma), é aproximadamente. Grandes valores de W Þ grandes diferenças em comum com log – máxima verossimilhança Þ grande suporte contra H. O teste da relação da MV rejeita H se W(q0(A)) > ca2( (ma)onde ca2( (ma) é 1 - a quantil de ca2(ma). As regiões de confiança para são dadas por: { :W(q(A),ca2( ma)} 2) Seja VA a variância assintótica de . Então:W*( ) = ( - q0(A))TVA-1( -q0(A)), distribuição aproximada c2( ma) de H. As regiões de confianças e os testes são obtidos a partir das informações acima com W* substituindo W.

  38. Em particular, para θ(A) escalar, a região de confiança torna-se: [ - z a/2 VA ½, + z a/2 VA ½] ( um intervalo) onde é usado o fato de c2( 1) = [N(0,1)]. Embora W e W* sejam assintoticamente equivalentes e geralmente similares, preferimos W pela re-parametrização acima e por ser invariante. Exemplo 3.1 (cont.): Temos o modelo exponencial, onde θ(A) = l, ma = 1 é W*(l ) = 2{- 18.35 - 10log l + 23.05l} O intervalo de confiança (IC = 95%) baseado em W* é dado por: {l:W(l)£ 3.84}=[.22,.76] e como 3.84 = c0.52(1). (Figura 3.1) Então o intervalo de confiança (IC = 95%) baseado em W*é: [.434 – 1.96 x .137, .434+1.96 x .137] = [0.17,0.70](simétrico) O intervalo de confiança (IC=95%) é dado por: [0.21,0.74] baseado em 2rl/ ~ c2(2r). Exemplo 3.2 (cont.): Desejamos testar a hipótese H de exponencialidade. Usando o modelo Gumbel temos: q(A) = s, q(B) = m, ma = 1e H é s = 1 W*(1) = 49.56 >> 3.84 Þ H0 rejeitado. Logo, W(1) = 15.50 confirma a rejeição de H como esperado.

  39. O Exemplo 3.2 considera a hipótese de recursividade: onde a Exponencial é um caso especial da Gumbel. São mais difíceis de considerar a hipótese de não – recursividade para o tratamento clássico estatístico. 3.5 Bondade do Ajuste Enfoque formal: Encaixar o modelo dentro de uma classe de modelos ( Exemplo 3.2) ou usar a forma excelente. Técnicas Gráficas Plote o gráfico de QQ: Seja m e s, parâmetros de locação e escala, (onde é estimador do PL) e F0 é a função de distribuição para m = 0 e s = 1. O plote dos pontos [aj , F0 -1(pj)] deveria ser linear. Plote PP: junte os pontos (pj , F( aj , )). (esta linha deveria ser y = x) Pode ser usado fora do modelo de locação de escala. Plote SP: Para estabilizar a variabilidade de PP, plote a transformação y = (2/p)sin-1x em ambos os eixos. As figuras 3.2 e 3.3 mostra os dados do exemplo 2.3 plotado em PP e SP.

  40. 3.6 Elementos de Estatística Bayesiana Incorpora informação subjetiva sobre o problema (experiência anterior). É feita através da especificação de uma distribuição a priori P(q). Informação a priori vaga: a análise é guiada pela informação dos dados. Assuma, como antes, uma amostra t = ( t1, , tn) com densidade f (t ;q). Isto é combinado com a priori e leva a Fórmula de Bayes Válido para q e t discreto e contínuo. P(q |t) é a densidade a posteriori (dado os dados t). Como t é constante, A fórmula de Bayes pode ser simplificada em A constante removida P(t) pode ser recuperada por Estimativas a posteriori para q são obtidas através de medidas de locação de P(q| t). Exemplo: Considere os dados do exemplo 2.2 com modelo exponencial

  41. É conveniente atribuir a priori (distribuição gama). • Combinada com a verossimilhança de forma simples (priori conjugada). • Para especificar os valores de a e b assuma que acredita-se que l está próximo de 0.5 e que é pouco provável que ele seja menor que 0.2. • Então, tome a moda da priori igual a 0.5 e P(l < 0.2)  0.05 • a = 3 e b = 4. A posteriori é l | t ~ Gamma (13, 27.05) com moda 0.444 e média 0.481 (figura 6.1). • O desvio padrão a posteriori (priori) é 0.133 (0.175).

  42. Regiões de confiança são facilmente obtidas da posteriori. Particularmente úteis são as regiões de maior densidade a posteriori (HPD). Por exemplo, o intervalo HPD de 95% para todo l é [0.231, 0.758]. Interpretação da região HPD é simples diferentemente das regiões de confiança clássicas. Inferência sobre funções paramétricas são obtidas de maneira similar. Assuma interesse na confiabilidade em um certo tempo t0 . Para o modelo exponencial isto é S ( t0 ; l) = e-lt0, uma função de l. A posteriori completa de S ( t0 ; l) pode ser obtida. Como exemplo, 0.01 = Pr (l < 0.225 | t) = Pr (S ( t0 ; l) > e-0.225t0 | t)  a probabilidade a posteriori de que S (t0; l) exceda e-0.225t0 é 0.01. Predição: assuma que se está interessado no tempo de vida S de um novo item. Inferência deve ser baseada na distribuição de S | ( t1, ... ,tn ). (S independente de t dado l) Por exemplo, a densidade do tempo de vida de um novo item é

More Related