1 / 25

MTTF a MTTR u dnešních systémů

MTTF a MTTR u dnešních systémů . Petr Čečil. Motivace – MTTF = 113 letů / havárie. Zdroj: http ://www.nasa.gov/ + http:// www.barringer1.com/aug04prb.htm. Motivace (2). Report of the PRESIDENTIAL COMMISSION on the Space Shuttle Challenger Accident.

trey
Download Presentation

MTTF a MTTR u dnešních systémů

An Image/Link below is provided (as is) to download presentation Download Policy: Content on the Website is provided to you AS IS for your information and personal use and may not be sold / licensed / shared on other websites without getting consent from its author. Content is provided to you AS IS for your information and personal use only. Download presentation by click this link. While downloading, if for some reason you are not able to download a presentation, the publisher may have deleted the file from their server. During download, if you can't get a presentation, the file might be deleted by the publisher.

E N D

Presentation Transcript


  1. MTTF a MTTR u dnešních systémů Petr Čečil

  2. Motivace – MTTF = 113 letů / havárie Zdroj: http://www.nasa.gov/ + http://www.barringer1.com/aug04prb.htm

  3. Motivace (2) Report of the PRESIDENTIAL COMMISSION on the Space Shuttle Challenger Accident Zdroj: http://history.nasa.gov/rogersrep/genindex.htm

  4. Odolnost proti chybám (opakování) • Spolehlivost a dostupnost • MTTF (mean time to failure) – průměrný časdo příštíchyby • MTTR (mean time to repair) - průměrnýčaszotavení • Dostupnost modulu = MTTF / (MTTF + MTTR) •  , FR (failurerate) – poruchovost, počet selhání např. za hodinu, rok atd… •  = 1 / MTTF • MTBF = MTTF + MTTR Zdroj: http://siret.ms.mff.cuni.cz/members/lokoc/teaching

  5. Typické MTTF (Gray 1992) • konektory kabely 1000y MTTF • logické obvody 3-20y MTTF soft/hard=1/1 až10/1 • disky u PC 1y MTTF dražší 5-20y MTTF (ale hodně záleží na typu chyb soft readerror je častější některé chyby jednou za milion let) • workstations 3-5y MTTF software 1w MTTF • SW: 3 chyby ve 100 řádcích kódu 100/1 soft/hard • datové spoje v USA 10-9 BER (bit errorrate) - optika • LAN: většina chyb kvůli protokolům 3w MTTF Zdroj: http://siret.ms.mff.cuni.cz/members/lokoc/teaching

  6. Příklad • Předpokládejme, že stáří komponent neovlivňuje pravděpodobnost vzniku chyb a komponenty selhávají nezávisle. Pak celková poruchovost je suma poruchovosti modulů. • SpočítejteMTTF diskového subsystému: • 10 diskůkaždý má 1000000 h MTTF • 1 SCSI controller 500000 h MTTF • 1 zdroj napájení 200000 h MTTF • 1 aktivní chlazení 200000 hMTTF • 1 SCSI kabel 1000 000 h MTTF • Failure Rate = 10*1/1 000 000 + 1/500 000 + 1/200 000 + 1/200 000 + 1/1 000 000 = (10+2+5+5+1)/1 000 000 = 23/1 000 000 • MTTF=1/Failure Rate = 1 000 000/23 = 43500 h

  7. Case Studies • Hlášená MTTF podle komponent systému • Výsledky: • Hardware a Maintenance mají výborné MTTF • Software maskuje většinu selhání HW • Operations skrývají chyby SW (nový SW, …) • Systematicky se nehlásí všechny chyby 1985 1987 1990 SOFTWARE 2 53 33 Years HARDWARE 29 91 310 Years MAINTENANCE 45 162 409 Years OPERATIONS 99 171 136 Years ENVIRONMENT 142 214 346 Years SYSTEM8 20 21 Years

  8. Zdroje • prof. Lawrence Rauchwerger; I/O 2: Failure Terminology Examples Gray Paper and a little Queueing Theory • https://parasol.tamu.edu/~rwerger/Courses/614/lec/Lec06-IO2.ppt • Jim Gray; Talk at UC Berkeley on Fault Tolerance • http://research.microsoft.com/en-us/um/people/gray/talks/UCBerkeley_Gray_FT_Avialiability_talk.ppt

  9. Pevné disky HDD SSD

  10. Vývoj spolehlivosti v MTTF • 1992 (TransactionProcessing: Concepts and Techniques - Grey) • disky u PC 1y MTTF dražší 5-20y MTTF • 1993 (Campbellet al. *): • 100 000 – 500 000 hodin • 2002 (Center for MagneticRecording Research - Hughes et. al.): • 900 000 hodin • 2012 (StorageReview.com - Andrew Baxter): • HDD: 1,5 milionů hodin • SSD: 2 miliony hodin – 10 milionů hodin • 2013: • Tape Drive: 250 000 hodin

  11. Důvody selhání • Nejvíce selhání pochází z interakce čtecí hlavy s diskem. • Způsob vzniku: • Nárazy • Dočasné přerušení/rušení přenosu • Poškození povrchu media • Selhání termo-mechanické stability struktur na disku • Chybou uživatele • Mechanické nárazy • Vnější kontaminace kondenzace • Výrobní vady • Kontaminace (i částicemi) při výrobě • Servo chyby • Zvětšení tloušťky maziva • Výkyvy v tloušťce uhlíkového potahu • Kontakt hlavy s diskem (z výroby)

  12. Co to znamená doopravdy? • Otázka není jestli disky selžou ale kdy. • Spolehlivost je velmi závislá na teplotě v jaké se disk provozuje. • Hodnotou MTTF nám výrobce říká jak dlouho by měl disk pracovat a že po jejím překročení roste pravděpodobnost selhání. • Reálnější hodnotou MTTF oproštěné od marketingu je délka záruční doby od výrobce.

  13. Zdroje • Charles M. Kozierok: The PC Guide (2001) • http://www.PCGuide.com • Dr. CraigHillman: Reliability of Hard Disk Drives (2003) • http://www.calce.umd.edu/whats_new/2003/1203.pdf • Andrew Ku: MTTF? MTBF? "My Drive Lasts Longer" 2011 • http://www.tomshardware.com/reviews/vertex-3-sandforce-ssd 2869-4.html • LTO-4 TapeDrive • http://www.cybernetics.com/tapebackup/LTOtapedriveL880.php

  14. Konektory kabely Elektromechanické komponenty

  15. Obecně • Gray (1992): konektory kabely 1000y MTTF • Hodnoty se stále pohybují v tisících let. • MTTF je složité získat pro konektory a kabely. Vyžaduje to: • Selhání při testech • Znát čas každého selhání • Bohužel jen velmi málo selhání se doopravdy stane při typických testech. • Takže se používají drsnější testy => nerealistické výsledky • Nebo delší testy => drahé testy • Kvůli těmto důvodům se MTTF u konektorů a kabelů v praxi nepoužívá. • Místo něj se zkoumá fyzikální princip poškození.

  16. Zdroje • Vincent C. Pascucci: A Brief Overview of Reliability in General and for Electrical Connectors in Particular • http://www.te.com/documentation/whitepapers/pdf/Brief_Overview_of_Reliability_in_General_and_for_Electrical_Connectors_in_Particular.pdf • Nějaké příklady (ne)používání MTTF u elektro-mechanických komponent: • http://support.automation.siemens.com/WW/llisapi.dll?func=cslib.csinfo&objId=22764530&load=treecontent&lang=en&siteid=cseus&aktprim=0&objaction=csview&extranet=standard&viewreg=WW • http://www.avagotech.com/docs/AV02-1303EN • MTTF = 10^9 / FIT • http://www.schneider-electric.com/resources/sites/SCHNEIDER_ELECTRIC/content/live/FAQS/28000/FA28376/es_ES/STB_MTBF.xls

  17. Software

  18. Windows MTTF • V roce 2000 zveřejnil MS porovnání 3 desktopových operačních systémů. Je založená na počítačích v akademické sféře soukromé a NSTL laboratořích. Firma eTestingLabs vydala v roce 2001 i pro Windows XP • Windows XP • 2980.8 hodin • Windows 2000 • 2893.50 hodin • Windows NT 4.0 • 918.52 hodin • Windows 98 • 216.05 hodin

  19. Linux – Debianpkgs • V roce 2011 na Technické univerzitě v Darmstadtu vytvořili aplikaci pro počítání MTTF Debian balíčků podle počtu bezpečnostních problémů a jejich dopadu • Hodnoty MTTF jsou ve dnech

  20. Zdroje • Microsoft: Comparison of the Reliability of Desktop Operating Systems 2000 • http://download.microsoft.com/download/a/1/f/a1f3fa82-d27b-49a4-befc-c08aa798088b/nstl.doc • eTestingLabs: Microsoft: Windows XP Reliability Study 2001 • http://www.anonymous-insider.net/windows/research/acrobat/0110.pdf • TrustMiner • https://freeside.trust.cased.de/apt-sec/hits

  21. Ostatní Integrované obvody procesory síťové prvky…

  22. Procesory integrované obvody • Copley Controls – firma vyrábějící řídící moduly pro roboty a serva • Jejich IC (Integrované obvody) mají MTTF okolo 175 mil. Hodin • http://www.copleycontrols.com/motion/pdf/AEM-APM-mtbf.pdf • Všimněme si ale keramických kondenzátorů mají sice malé MTTF jako jednotky. Pokud jich je ale na desce 186 dostáváme MTTF už 500 000 hodin • Všude vycházejí obrovská čísla a firmy MTTF už prakticky nezveřejňují (Intel, AMD) • „Assume we have an industry grade (-40°C to 85°C) standard microcontroller. “ … „Below 90 nanometer things start becoming increasingly statistical and the MTTF could be as low as less than 10 years (if no precautionary measures were taken).“ * *Zdroj: http://www.altreonic.com/content/whats-lifetime-digital-processor

  23. Procesory MTTF - ilustrace

  24. Síťové prvky • Cisco přepínače (switch) • ~ 200 000 hodin

  25. Zdroje • http://www.cisco.com/en/US/products/hw/switches/ps628/products_data_sheet09186a008033a436.html • http://www.copleycontrols.com/motion/pdf/AEM-APM-mtbf.pdf • http://www.youtube.com/watch?v=y39D4529FM4

More Related