5 semne de avertizare ale unei defecțiuni a echipamentului critic

Conţinut

Ce este MTBF?
Routing
Întreruperi
Putere rezistentă
Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de software care poate schimba viața fără a vă distruge viața
Depozitare protejată
Servere
MTBF: se poate defecta prea mult

La pachet:

Reducerea timpului de oprire prin planificarea avansată meticulosă poate însemna diferența dintre creșterea și declinul afacerii. Acolo intervine timpul mediu dintre eșec.

Nu subestimați cât de mult se bazează companiile din zilele noastre pe sistemele critice. Tocmai de aceea, singurul său sens comun este faptul că o întreprindere poate fi capabilă să evalueze riscul de defectare a echipamentului. Fără garanții cu privire la momentul în care un echipament ar putea eșua, trebuie să existe cel puțin o estimare exactă a momentului în care acesta nu mai poate fi considerat de încredere.

Un echipament altfel invizibil ar putea să nu pară critic pentru o afacere, dar atunci când un singur ventilator de răcire nu reușește, determină un generator să renunțe la fantomă și provoacă zeci sau chiar sute de mii de utilizatori probleme costisitoare pentru o perioadă prelungită, puteți vezi că posibilitatea de a estima componentele infrastructurii tale ar putea eșua - și când - are o importanță extremă. Acolo intervine timpul mediu dintre eșecuri (MTBF), metoda pe care profesioniștii IT se bazează pentru a oferi o precizie estimări despre momentul în care echipamentul critic va eșua. Aici aruncăm o privire la ceea ce ucide în cele din urmă unele tipuri comune de echipamente critice și cum MTBF poate ajuta la salvarea zilei.

Ce este MTBF?

Fiecare echipament IT fabricat i se atribuie un număr unic de model. Cei care joacă un anumit rol în infrastructura critică sunt furnizați clienților cu o estimare MTBF. Calculele complexe pentru elaborarea MTBF pentru un echipament au loc în faza de testare îndelungată în cadrul unei cercetări și dezvoltare a produselor și sunt relativ specifice unui anumit model.

Dacă doriți să găsiți MTBF pentru un anumit echipament, îl veți găsi în fișa de specificații detaliată furnizată de producător. De asemenea, puteți contacta direct producătorul.

Routing

Un router de tip enterprise include multe părți, unele în mișcare și altele statice. Unitățile de alimentare cu energie electrică (PSU) și ventilatoarele de răcire au ambele părți în mișcare și acele elemente care tind să fie puncte de avarie, mai ales dacă unitatea nu este adăpostită în interiorul unui centru de date relativ fără praf. Din fericire, cu o anumită intrare de administrator, majoritatea routerelor se vor raporta la SysLog facilitatea, astfel încât orice componente eșuate pot fi semnalizate.

Întreruperi

Pe o linie similară, următorul nivel în cadrul unei rețele de întreprindere este hardware-ul care comută. Deși întrerupătoarele de calitate întreprinderii tind, de asemenea, să se bazeze pe fani, de obicei sunt mai puține decât cele care se regăsesc în șasiul routerului. Dacă mecanismele de avertizare ale fanilor sunt intacte, de obicei, un comutator defectuos se comportă greșit la nivel de software, fie prin dezactivarea neașteptată a unui port de comutare sau, mai frecvent, prin prezentarea unui comportament neobișnuit, cum ar fi aruncarea pachetelor, provocând diferite niveluri de perturbare a traficului sau schimbare incorectă setări definite de utilizator fără a fi solicitat să facă acest lucru.

Cisco de rețea Cisco anunță unul dintre routerele sale, având un MTBF de 188.574 ore pentru modelul Cisco Catalyst 3750G-24TS. Dacă împărțim asta la 8.765.81277 (numărul de ore într-un an), atunci vedem că acest model are o estimare MTBF de aproximativ 21,5 ani. Această cifră este de o anumită siguranță atunci când considerați că acest echipament trebuie să funcționeze bine 24/7 fără greșeală, deși în realitate este pur și simplu o indicație a fiabilității sale. Chiar și așa, le oferă utilizatorilor o ghicire educată cu privire la cât timp poate fi de așteptat ca această echipament să dureze.

Putere rezistentă

Sursele de alimentare neîntrerupte (UPS) conectate la un număr mare de baterii pot furniza energie de rezervă în cadrul întreprinderii în timpul vrăjirii scurte, înainte ca generatorii să se învârtă în timpul unei întreruperi de energie. Anumite defecțiuni software specifice se pot materializa într-un UPS, la fel ca în orice echipament, dar, în general, bateriile din care trage energie vor cauza de obicei cea mai mare îngrijorare. Dacă o baterie UPS este alimentată frecvent și reîncărcată, capacitatea sa se va diminua mai repede, iar timpul său de funcționare se va scurta dramatic. Nu este surprinzător, de asemenea, este posibil ca bateriile UPS să defecteze complet. Un UPS poate raporta modemurile și rețelele atunci când apar defecțiuni, dar mai des, UPS-uri mai vechi vor declanșa alarme sonore atunci când apare o problemă.

Fără bug-uri, fără stres - Ghidul dvs. pas cu pas pentru crearea de software care poate schimba viața fără a vă distruge viața

Nu îți poți îmbunătăți abilitățile de programare atunci când nimeni nu îi pasă de calitatea software-ului.

Depozitare protejată

Hard discurile pe care le folosim astăzi și pe care ne bazăm într-un grad atât de ridicat au devenit semnificativ mai fiabile în ultimii zece ani. Cu toate acestea, sunt departe de a fi infailibili și, în funcție de studiul pe care l-ai putea crede, par să funcționeze corect pentru o perioadă mai lungă, în funcție de o serie de factori. (O mare opinie despre acest lucru poate fi găsită aici în Remarketer.) Dacă raportarea detaliată este activată și unitatea oferă feedback despre erori, atunci sectoarele corupte și eșecurile de citire / scriere sunt cheia pentru a detecta un disc dintr-un tablou de stocare. eșuează. O altă problemă comună în serverele care folosesc mai multe discuri conectate la un controler RAID este aceea că controlerul în sine nu va reuși. Din păcate, uneori, hard disk-urile pur și simplu nu mai funcționează fără niciun avertisment, o problemă greu de protejat.

Servere

În afară de unitățile încorporate în servere și părțile mobile, cum ar fi ventilatoarele de răcire menționate și alimentatoarele, mai multe probleme pot apărea și în cadrul componentelor hardware ale serverelor. Raportarea la nivel de software (care se referă, de regulă, la BIOS sau alte diagnoze componente componente hardware la nivel scăzut) este esențială pentru a detecta atunci când lucrurile au eșuat sau, mai important, sunt semne de eșec. O problemă care nu poate fi imediat evidentă este cea care afectează plăcile de bază. Are sens perfect că mașinile le place prea multă căldură. Dar chiar și astăzi, dacă o placă de circuit modernă este supusă unei pierderi de căldură rapidă - sau trece de la a curge foarte cald la a deveni brusc rece - pot apărea fisuri, ceea ce face ca bordul să eșueze dezastruos. Este o problemă de care trebuie să țineți cont, mai ales dacă mutați echipamente între clădiri într-un interval de timp neiertător.

MTBF: se poate defecta prea mult

La fel de utile ca predicțiile MTBF sunt importante pentru a calcula nivelurile de risc acceptabil cu orice echipament pe care trebuie să se bazeze o afacere. Din păcate, chiar și cu toate asigurările statistice furnizate de producători, singura modalitate concretă de a garanta disponibilitatea echipamentelor care rulează sisteme critice este dublarea acesteia, pentru a permite un declanșare a temporizării.

Fiecare componentă hardware utilizată în întreprindere este alcătuită din mai multe componente diferite, astfel încât adevăratul MTBF este departe de un banal calcul. În mod clar, este esențial să nu se bazeze pe viitorul afacerilor cu privire la aceste măsurători de probabilitate, ci în schimb să le folosească ca punct de bază pentru a lua decizii informate în legătură cu continuitatea activității și procedurile de recuperare a catastrofelor. La urma urmei, reducerea timpului de oprire prin planificarea avansată meticulosă poate însemna diferența dintre un business de succes și un eșec de afaceri.