250 likes | 353 Views
MTTF a MTTR u dnešních systémů . Petr Čečil. Motivace – MTTF = 113 letů / havárie. Zdroj: http ://www.nasa.gov/ + http:// www.barringer1.com/aug04prb.htm. Motivace (2). Report of the PRESIDENTIAL COMMISSION on the Space Shuttle Challenger Accident.
E N D
MTTF a MTTR u dnešních systémů Petr Čečil
Motivace – MTTF = 113 letů / havárie Zdroj: http://www.nasa.gov/ + http://www.barringer1.com/aug04prb.htm
Motivace (2) Report of the PRESIDENTIAL COMMISSION on the Space Shuttle Challenger Accident Zdroj: http://history.nasa.gov/rogersrep/genindex.htm
Odolnost proti chybám (opakování) • Spolehlivost a dostupnost • MTTF (mean time to failure) – průměrný časdo příštíchyby • MTTR (mean time to repair) - průměrnýčaszotavení • Dostupnost modulu = MTTF / (MTTF + MTTR) • , FR (failurerate) – poruchovost, počet selhání např. za hodinu, rok atd… • = 1 / MTTF • MTBF = MTTF + MTTR Zdroj: http://siret.ms.mff.cuni.cz/members/lokoc/teaching
Typické MTTF (Gray 1992) • konektory kabely 1000y MTTF • logické obvody 3-20y MTTF soft/hard=1/1 až10/1 • disky u PC 1y MTTF dražší 5-20y MTTF (ale hodně záleží na typu chyb soft readerror je častější některé chyby jednou za milion let) • workstations 3-5y MTTF software 1w MTTF • SW: 3 chyby ve 100 řádcích kódu 100/1 soft/hard • datové spoje v USA 10-9 BER (bit errorrate) - optika • LAN: většina chyb kvůli protokolům 3w MTTF Zdroj: http://siret.ms.mff.cuni.cz/members/lokoc/teaching
Příklad • Předpokládejme, že stáří komponent neovlivňuje pravděpodobnost vzniku chyb a komponenty selhávají nezávisle. Pak celková poruchovost je suma poruchovosti modulů. • SpočítejteMTTF diskového subsystému: • 10 diskůkaždý má 1000000 h MTTF • 1 SCSI controller 500000 h MTTF • 1 zdroj napájení 200000 h MTTF • 1 aktivní chlazení 200000 hMTTF • 1 SCSI kabel 1000 000 h MTTF • Failure Rate = 10*1/1 000 000 + 1/500 000 + 1/200 000 + 1/200 000 + 1/1 000 000 = (10+2+5+5+1)/1 000 000 = 23/1 000 000 • MTTF=1/Failure Rate = 1 000 000/23 = 43500 h
Case Studies • Hlášená MTTF podle komponent systému • Výsledky: • Hardware a Maintenance mají výborné MTTF • Software maskuje většinu selhání HW • Operations skrývají chyby SW (nový SW, …) • Systematicky se nehlásí všechny chyby 1985 1987 1990 SOFTWARE 2 53 33 Years HARDWARE 29 91 310 Years MAINTENANCE 45 162 409 Years OPERATIONS 99 171 136 Years ENVIRONMENT 142 214 346 Years SYSTEM8 20 21 Years
Zdroje • prof. Lawrence Rauchwerger; I/O 2: Failure Terminology Examples Gray Paper and a little Queueing Theory • https://parasol.tamu.edu/~rwerger/Courses/614/lec/Lec06-IO2.ppt • Jim Gray; Talk at UC Berkeley on Fault Tolerance • http://research.microsoft.com/en-us/um/people/gray/talks/UCBerkeley_Gray_FT_Avialiability_talk.ppt
Pevné disky HDD SSD
Vývoj spolehlivosti v MTTF • 1992 (TransactionProcessing: Concepts and Techniques - Grey) • disky u PC 1y MTTF dražší 5-20y MTTF • 1993 (Campbellet al. *): • 100 000 – 500 000 hodin • 2002 (Center for MagneticRecording Research - Hughes et. al.): • 900 000 hodin • 2012 (StorageReview.com - Andrew Baxter): • HDD: 1,5 milionů hodin • SSD: 2 miliony hodin – 10 milionů hodin • 2013: • Tape Drive: 250 000 hodin
Důvody selhání • Nejvíce selhání pochází z interakce čtecí hlavy s diskem. • Způsob vzniku: • Nárazy • Dočasné přerušení/rušení přenosu • Poškození povrchu media • Selhání termo-mechanické stability struktur na disku • Chybou uživatele • Mechanické nárazy • Vnější kontaminace kondenzace • Výrobní vady • Kontaminace (i částicemi) při výrobě • Servo chyby • Zvětšení tloušťky maziva • Výkyvy v tloušťce uhlíkového potahu • Kontakt hlavy s diskem (z výroby)
Co to znamená doopravdy? • Otázka není jestli disky selžou ale kdy. • Spolehlivost je velmi závislá na teplotě v jaké se disk provozuje. • Hodnotou MTTF nám výrobce říká jak dlouho by měl disk pracovat a že po jejím překročení roste pravděpodobnost selhání. • Reálnější hodnotou MTTF oproštěné od marketingu je délka záruční doby od výrobce.
Zdroje • Charles M. Kozierok: The PC Guide (2001) • http://www.PCGuide.com • Dr. CraigHillman: Reliability of Hard Disk Drives (2003) • http://www.calce.umd.edu/whats_new/2003/1203.pdf • Andrew Ku: MTTF? MTBF? "My Drive Lasts Longer" 2011 • http://www.tomshardware.com/reviews/vertex-3-sandforce-ssd 2869-4.html • LTO-4 TapeDrive • http://www.cybernetics.com/tapebackup/LTOtapedriveL880.php
Konektory kabely Elektromechanické komponenty
Obecně • Gray (1992): konektory kabely 1000y MTTF • Hodnoty se stále pohybují v tisících let. • MTTF je složité získat pro konektory a kabely. Vyžaduje to: • Selhání při testech • Znát čas každého selhání • Bohužel jen velmi málo selhání se doopravdy stane při typických testech. • Takže se používají drsnější testy => nerealistické výsledky • Nebo delší testy => drahé testy • Kvůli těmto důvodům se MTTF u konektorů a kabelů v praxi nepoužívá. • Místo něj se zkoumá fyzikální princip poškození.
Zdroje • Vincent C. Pascucci: A Brief Overview of Reliability in General and for Electrical Connectors in Particular • http://www.te.com/documentation/whitepapers/pdf/Brief_Overview_of_Reliability_in_General_and_for_Electrical_Connectors_in_Particular.pdf • Nějaké příklady (ne)používání MTTF u elektro-mechanických komponent: • http://support.automation.siemens.com/WW/llisapi.dll?func=cslib.csinfo&objId=22764530&load=treecontent&lang=en&siteid=cseus&aktprim=0&objaction=csview&extranet=standard&viewreg=WW • http://www.avagotech.com/docs/AV02-1303EN • MTTF = 10^9 / FIT • http://www.schneider-electric.com/resources/sites/SCHNEIDER_ELECTRIC/content/live/FAQS/28000/FA28376/es_ES/STB_MTBF.xls
Windows MTTF • V roce 2000 zveřejnil MS porovnání 3 desktopových operačních systémů. Je založená na počítačích v akademické sféře soukromé a NSTL laboratořích. Firma eTestingLabs vydala v roce 2001 i pro Windows XP • Windows XP • 2980.8 hodin • Windows 2000 • 2893.50 hodin • Windows NT 4.0 • 918.52 hodin • Windows 98 • 216.05 hodin
Linux – Debianpkgs • V roce 2011 na Technické univerzitě v Darmstadtu vytvořili aplikaci pro počítání MTTF Debian balíčků podle počtu bezpečnostních problémů a jejich dopadu • Hodnoty MTTF jsou ve dnech
Zdroje • Microsoft: Comparison of the Reliability of Desktop Operating Systems 2000 • http://download.microsoft.com/download/a/1/f/a1f3fa82-d27b-49a4-befc-c08aa798088b/nstl.doc • eTestingLabs: Microsoft: Windows XP Reliability Study 2001 • http://www.anonymous-insider.net/windows/research/acrobat/0110.pdf • TrustMiner • https://freeside.trust.cased.de/apt-sec/hits
Ostatní Integrované obvody procesory síťové prvky…
Procesory integrované obvody • Copley Controls – firma vyrábějící řídící moduly pro roboty a serva • Jejich IC (Integrované obvody) mají MTTF okolo 175 mil. Hodin • http://www.copleycontrols.com/motion/pdf/AEM-APM-mtbf.pdf • Všimněme si ale keramických kondenzátorů mají sice malé MTTF jako jednotky. Pokud jich je ale na desce 186 dostáváme MTTF už 500 000 hodin • Všude vycházejí obrovská čísla a firmy MTTF už prakticky nezveřejňují (Intel, AMD) • „Assume we have an industry grade (-40°C to 85°C) standard microcontroller. “ … „Below 90 nanometer things start becoming increasingly statistical and the MTTF could be as low as less than 10 years (if no precautionary measures were taken).“ * *Zdroj: http://www.altreonic.com/content/whats-lifetime-digital-processor
Síťové prvky • Cisco přepínače (switch) • ~ 200 000 hodin
Zdroje • http://www.cisco.com/en/US/products/hw/switches/ps628/products_data_sheet09186a008033a436.html • http://www.copleycontrols.com/motion/pdf/AEM-APM-mtbf.pdf • http://www.youtube.com/watch?v=y39D4529FM4