MTBF - звідки береться «мільйон годин MTBF»

Просто дивно те, наскільки велике нерозуміння навколо такого широко поширеного поняття, як MTBF (Mean Time Between Failure - «Час між збоями» або «напрацювання на відмову»), наскільки сенсу цієї величини не розуміють, часто, навіть фахівці в області зберігання даних.


Здавалося б - що може бути простіше. «Напрацювання на відмову» це час безпроблемної роботи, від першого включення нового диска, до моменту відмови, порахована в годинах.

Майже кожен, хто поцікавиться значенням, приводимим виробниками, в якості MTBF сучасних дисків, і з легкістю зробить нескладні підрахунки, буде здивований дивною його величиною.

На сьогодні величина MTBF приводиться в мільйон або навіть півтора мільйона годин.

У році - приблизно 8760 годин, значить, виходячи з нашого розуміння «фізичного сенсу» цього значення, виробник планує «напрацювання на відмову» для будь-якого такого диска більше ста років (114 років, для мільйона годин MTBF), що є очевидною безглуздістю для кожного, у кого подихали жорсткі диски.

Тоді що це за «мільйон годин», де і яким чином він вимірений?

Звичайно ж виробник не ганяє диск 114 років, оцінка виробляється штучно, але звідки взагалі взялася величина в «мільйон годин»?

Справа в тому, що MTBF вимірюється для всієї експлуатованої «дискової популяції», і поширюється на період оголошеного гарантійного терміну для даного типу дисків. Обидва виділені моменти є важливими, і часто опускаються в описі, що і призводить до принципового нерозуміння.

Уявімо собі, що ми поставили в сервер жорсткий диск, який пропрацював 3 роки гарантійного терміну, і, будучи справним, був замінений на новий. Наступний пропрацював три роки, і був замінений після закінчення гарантійного терміну, і так далі. І ось на 38-му диску ви маєте право очікувати, що до кінця гарантійного терміну він не допрацює.

Або ж уявімо собі трохи більш наближену до реальності ситуацію.

Припустимо, для простоти підрахунку, у нас є система зберігання на 115 дисків. Для кожного диска виробник наводить MTBF рівний мільйону годин. Але треба взяти до уваги те, що у великій дисковій популяції загальний MTBF, тобто ймовірність відмови, зростає, зі збільшенням кількості використовуваних дисків.

Для 115 дисків, виходячи з приводимої вендором величини MTBF, ми маємо право очікувати, що хоча б один диск з популяції в 115 вийде з ладу до кінця трирічного гарантійного терміну.

Цей варіант вже куди більш схожий на правду.

Строго кажучи, на практиці, замість MTBF набагато практичніше користуватися параметром AFR - Annual Failure Rate, або «щорічна ймовірність збоїв», виводимому з MTBF.

Він обчислюється як: AFR = 1-exp(-8760/MTBF)

Величина AFR для диска з мільйоном годин MTBF становить 0,87%, що, в принципі, хоч і трохи завищено (Google у відомому дослідженні 2007 року показує для нових дисків в межах гарантійного терміну якраз AFR в районі 1%), але, все ж вже досить добре узгоджується з практикою.

Цікаво, що, наприклад, такий виробник жорстких дисків як WD тепер зовсім перестав вказувати величину MTBF, перейшовши на вказівку іншого параметра: «power on/off cycles», мабуть не в останню чергу саме у зв'язку з явно видимим нерозумінням і неочевидністю застосування зазначеної величини MTBF користувачами.