MTBF,即平均故障間隔時間,英文全稱是"Mean Time Between Failure"。是衡量一個產品(尤其是電器產品)的可靠性指標。單位為"小時"。它反映了產品的時間質量,是體現(xiàn)產品在規(guī)定時間內保持功能的一種能力。具體來說,是指相鄰兩次故障之間的平均工作時間,也稱為平均故障間隔。概括地說,產品故障少的就是可靠性高,產品的故障總數(shù)與壽命單位總數(shù)之比叫"故障率"(Failure rate)。它僅適用于可維修產品。同時也規(guī)定產品在總的使用階段累計工作時間與故障次數(shù)的比值為MTBF。磁盤陣列產品一般MTBF不能低于50000小時。
計算方法
失效時間是指上一次設備恢復正常狀態(tài)(圖中的up time)起,到設備此次失效那一刻(圖中的down time)之間間隔的時間。
MTBF值是產品設計時要考慮的重要參數(shù),可靠度工程師或設計師經常使用各種不同的方法與標準來估計產品的MTBF值。相關標準包括MIL-HDBK-217F、Telcordia SR332、Siemens Norm、Fides或UTE C 80-810(RDF2000)等。不過這些方法估計到的值和實際的平均故障間隔仍有相當?shù)牟罹?。計算平均故障間隔的目的是為了找出設計中的薄弱環(huán)節(jié)。
故障時間
隨著服務器的廣泛應用,對服務器的可靠性提出了更高的要求。所謂"可靠性",就是產品在規(guī)定條件下和規(guī)定時間內完成規(guī)定功能的能力;反之,產品或其一部分不能或將不能完成規(guī)定的功能是出故障。概括地說,產品故障少的就是可靠性高,產品的故障總數(shù)與壽命單位總數(shù)之比叫"故障率"(Failure rate),常用λ表示。例如正在運行中的100只硬盤,一年之內出了2次故障,則每個硬盤的故障率為0.02次/年。當產品的壽命服從指數(shù)分布時,其故障率的倒數(shù)就叫做平均故障間隔時間(Mean Time Between Failures),簡稱MTBF。即:
MTBF=1/λ
筆者看到一款可用于服務器的WD Caviar RE2 7200 RPM 硬盤,MTBF 高達 120萬小時,保修 5年。120萬小時約為137年,并不是說該種硬盤每只均能工作137年不出故障。由MTBF=1/λ可知λ=1/MTBF=1/137年,即該硬盤的平均年故障率約為0.7%,一年內,平均1000只硬盤有7只會出故障。
下圖所示為著名的浴盆曲線,左邊斜線部分為早期故障率,其故障率一般較高且隨著時間推移很快下降。曲線中部為使用壽命期,其故障率一般很低且基本固定。最右部為耗損期,失效率急速升高。電子產品制造商一般通過測試、老煉、篩選等手段將早期故障盡量剔除,然后提供給客戶使用。當使用壽命期將盡,產品也即將進入故障高發(fā)期,需要報廢或更新?lián)Q代了。
相關主題:材料檢測中心