1 / 33

Tolerância a Falhas

Tolerância a Falhas. Carlos Oberdan Rolim Ciência da Computação. Medidas. Taxa de Defeitos Curva da banheira Tempos Médios (mean times) MTTF, MTBF, MTTR Exemplos de cálculos de tempos médios Confiabilidade Disponibilidade Cobertura. Comportamento ideal x real. Ideal Real.

rhonda
Download Presentation

Tolerância a Falhas

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. Tolerância a Falhas Carlos Oberdan Rolim Ciência da Computação

  2. Medidas • Taxa de Defeitos • Curva da banheira • Tempos Médios (mean times) • MTTF, MTBF, MTTR • Exemplos de cálculos de tempos médios • Confiabilidade • Disponibilidade • Cobertura

  3. Comportamento ideal x real • Ideal • Real

  4. O que medir ? • Com que freqüência ocorrem defeitos? • Qual o tempo entre um defeito e outro? • Qual o tempo até o primeiro defeito? • Qual o tempo gasto para reparar cada defeito? • Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? • Quais as chances dos sistema estar funcionando em um determinado instante?

  5. Taxa de Defeitos Número esperado de defeitos em um dado período de tempo (failure rate) • Com que freqüência ocorrem defeitos? • Taxa de Defeitos • unidade: defeitos por hora • Expresso por  (lambda) • Assume uma taxa de defeitos constante Z(t) =  • Na verdade não é constante • Boa aproximação: curva da banheira • função: • Z(t) – hazard function, ou taxa de defeitos ou ainda taxa de “morte” de componentes de uma população em um intervalo de tempo Taxa instantanea de componentes falhos no tempo t Quantidade de componentes operacionais

  6. Curva da Banheira fases de mortalidade infantil e envelhecimento muito pequenas comparadas ao período de vida útil válido para hardware

  7. Mortalidade Infantil • Alta taxa de defeitos que diminui rapidamente no tempo • componentes fracos e mal fabricados • burn-in: remoção de componentes fracos • operação acelerada de componentes antes de colocá-los no produto final • só entram em operação componentes que sobreviveram à mortalidade infantil mortalidade infantil é uma fase de curto período de duração

  8. Envelhecimento • taxa de defeitos aumenta rapidamente com o tempo • devido ao desgaste físico do componente • conhecendo o início da fase de envelhecimento é possível substituir o componente • sistema volta a operar na fase de vida útil • envelhecimento é também uma fase de curto período de duração ideal é evitá-la

  9. Tempo de vida útil • Corresponde ao tempo em que um componente pode ser utilizado antes que comece a apresentar uma alta taxa de falhas • Tempo de vida em operação normal • essa fase apresenta um serviço mais previsível em relação a falhas • relação exponencial entre confiabilidade e tempo • usa  - taxa de defeitos constante • válido para hardware

  10. Curva da banheira em software • software comporta-se diferente do hardware • melhor usar erros que falhas • erros são constantemente removidos • taxa de defeitos continua caindo com o tempo • confiabilidade aumenta com o tempo • envelhecimento de software ? • obsolescência dos programas • alterações nas plataformas exceto se forem efetuadas alterações, adaptações, mudança de plataforma (sistema operacional e hardware)

  11. O que medir ? • Com que freqüência ocorrem defeitos? • Qual o tempo entre um defeito e outro? • Qual o tempo até o primeiro defeito? • Qual o tempo gasto para reparar cada defeito? • Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? • Quais as chances dos sistema estar funcionando em um determinado instante?

  12. Medidas mean time to failure • MTTF • tempo esperado até a primeira ocorrência de defeito • MTTR • Tempo médio para reparo do sistema • MTBF • tempo médio entre defeitos do sistema mean time to repair mean time between failures

  13. MTTF – mean time to failure • tempo esperado de operação do sistema antes da ocorrência do primeiro defeito • exemplo: • considera-se N sistemas idênticos colocados em operação a partir do tempo t=0 • mede-se o tempo de operação ti de cada um até apresentar defeito • MTTF é o tempo médio de operação • MTTF =  N ti N i=1 quanto maior a quantidade de Amostras N, mais próximo do Valor real será o MTTF estimado

  14. MTTF Para um único sistema o procedimento é semelhante: ti passa a ser Dti, o intervalo de tempo em operação entre os defeitos, e N o número de defeitos N ti N MTTF =  i=1 ou MTTF = 1/ Considerando R(t) = e-t

  15. MTTF: Exemplo MTTF = (Dt1 + Dt2 + Dt3)/nº defeitos MTTF = 46,5/3 = 15,5 h Taxa de defeitos () = 1/MTTF = 0,064 def/h

  16. MTTR – mean time to repair • Tempo médio de reparo do sistema • Inclui: • O tempo gasto identificando o erro (80% do tempo total) • O tempo gasto resolvendo o erro • O tempo gasto em espera para o erro de ser resolvido • Difícil de estimar • Geralmente usa-se injeção de falhas • Injeta-se uma falha de cada vez e mede-se o tempo • Nova constante  (ipsilón) • Taxa de reparos •  = taxa de reparos por hora Sistema completamente operacional Em sistemas de alta disponibilidade, é importante diminuir o tempo de reparo para aumentar a disponibilidade do sistema ou então

  17. MTTR • Ri = tempo de reparo da falha i • n = número de falhas Quanto maior o número de amostras, melhor

  18. MTTR: exemplo Tempo de reparo do 1º defeito (R1) = 0,5 h Tempo de reparo do 2º defeito (R2) = 1 h MTTR = (R1 + R2) / nº reparos MTTR = 1,5 / 2 MTTR = 0,75 h

  19. MTBF – mean time between failure • MTBF = MTTF + MTTR • diferença numérica pequena em relação a MTTF • os tempos de operação são geralmente muito maiores que os tempos de reparo • na prática valores numéricos muito aproximados (tanto faz usar um como outro) • considera-se: • reparo coloca sistema em condições ideais de operação

  20. MTBF

  21. MTBF: Exemplo • Tempo entre o início e o 1º defeito (Dd1) = 6 h • Tempo entre 1º e 2º defeitos (Dd2) = 26 h • Tempo entre 2º e 3º defeitos (Dd3) = 16 h • MTBF = (Dd1 + Dd2 + Dd3)/nº defeitos • MTBF = 48/3 • MTBF = 16 h

  22. Demais medidas • Com que freqüência ocorrem defeitos? • Qual o tempo entre um defeito e outro? • Qual o tempo até o primeiro defeito? • Qual o tempo gasto para reparar cada defeito? • Quais as chances do sistema funcionar sem defeitos durante um determinado período de tempo? • Quais as chances dos sistema estar funcionando em um determinado instante? Taxa de defeitos MTBF MTTF MTTR

  23. Confiabilidade • Reliability • Considerando um sistema contendo N componentes idênticosS(t) = numero de componentes sobreviventes no tempo tF(t) = numero de componentes falhos no tempo t probabilidade de que um sistema funcione corretamente durante um intervalo de tempo [t0,t]

  24. Confiabilidade • para um taxa de defeitos constante  a confiabilidade R(t) varia exponencialmente em função do tempo • sistema na fase de vida útil: taxa de defeitos constante  • R(t) = e-t • é a mais usada relação entre confiabilidade e tempo • válida principalmente para componentes eletrônicos • discutível se vale para software: conforme o software vai sendo usado, bugs vão sendo descobertos e a confiabilidade do software aumenta exponential failure law

  25. Confiabilidade, MTTF e Taxa de defeitos Qualquer sistema tem 37% de chance de funcionar corretamente durante um período de tempo = MTTF (63% de falhar)

  26. Confiabilidade: distribuição de Weibull • Expressão semi-empírica desenvolvida por Ernest Hjalmar Wallodi Weibull, físico sueco, que em 1939 apresentou o modelo de planejamento estatístico sobre fadiga de material. • Sua utilidade decorre do fato, de permitir: • representar falhas típicas de partida (mortalidade infantil), falhas aleatórias e falhas devido ao desgaste. • obter parâmetros significativos da configuração das falhas. • representação gráfica simples.

  27. Confiabilidade: distribuição de Weibull • se taxa de defeitos varia com o tempo • z(t) distribuição de Weibull • importante para modelagem de software onde a confiabilidade pode inclusive aumentar com o tempo • z(t) = (t)-1 para >0 e >0 • R(t) = e –(t) • para =1 z(t) = constante =  • para >1 z(t) = aumenta com o tempo • para <1 z(t) = diminui com o tempo  e  são constantes que controlam a variação de z(t) no tempo

  28. Confiabilidade • Para: =1 =0,1 taxa de defeitos constante confiabilidade diminui com o tempo

  29. Confiabilidade • Para: =0,6 =0,1 taxa de defeitos diminui Como tempo confiabilidade diminui com o tempo mas não tão acentuadamente

  30. Confiabilidade • Para: =2 =0,1 taxa de defeitos aumenta linearmente com o tempo confiabilidade diminui com o tempo acentuadamente

  31. Disponibilidade A(t): Availability • probabilidade do sistema estar operacional no instante t (disponível para o trabalho útil) • alternância entre períodos de funcionamento e de reparo • A(t) = R(t) quando reparo tende a zero • lembrar que MTBF = MTTF + MTTR • intuitivamente • A(t) = top / (top+ treparo) • genericamente • A(t) = MTTF / (MTTF + MTTR) top = tempo de operação normal Treparo = tempo de reparo nessa relação, o significado de alta disponibilidade fica mais claro diminuindo o tempo médio de reparo, aumenta a disponibilidade

  32. Cobertura • Cobertura de falhas • Habilidade do sistema de realizar detecção, confinamento, localização, recuperação... • Geralmente se refere a habilidade de realizar recuperação de falhas • Significado matemático: • Probabilidade condicional que dada uma falha o sistema se recupere • Determinação: listar falhas possíveis e falhas que o sistema pode tolerar e calcular o percentual • Muito usada também em experimentos de injeção de falhas Extremamente difícil de calcular Geralmente assumido um valor constante

  33. Problemas com medidas • Defeitos são eventos aleatórios • Podem demorar muito para ocorrer, não ocorrer ou ocorrer em um momento não apropriado • Custo de avaliação experimental é alto • Necessária uma grande quantidade de amostras • Necessário tempo grande de avaliação • É importante avaliar durante o projeto do sistema • Injeção de falhas

More Related