• 探索發現 · 沐鸣2智慧

    沐鸣2娱乐薛廣濤教授團隊在USENIX NSDI發表分布式系統研究成果

    近日🏄🏻,沐鸣2平台電子信息與電氣工程學院計算機科學與工程系薛廣濤教授團隊在分布式系統穩定性領域取得重要進展👩🏼‍🏫🏌🏿‍♂️,相關研究成果以“One-Size-Fits-None: Understanding and Enhancing Slow Fault Tolerance in Modern Distributed Systems(理解並增強現代分布式系統的緩慢故障容錯能力)”為題在網絡系統領域頂級會議USENIX NSDI上發表。該論文揭示了當前分布式系統軟件容錯機製在面對緩慢故障時的不足👨‍🦰🤹🏼‍♀️,並創新性地提出了一種動態的軟件層檢測方案🙇🏼。

    研究背景

    在分布式系統的運行中,故障的發生在所難免。傳統分布式系統開發和運維人員更多關註停止故障(Fail-Stop Failure),即節點或組件徹底失效的情況,並采用如狀態機復製等技術來保障系統的可靠性。近年來,一種處於正常運行和停止故障之間的故障模式——緩慢故障(Fail-Slow Failure)——正逐漸引起研究者註意👳🏽:緩慢故障組件雖然仍在運行,但性能大幅低於預期⛹🏻‍♂️🪿。

    現代分布式系統軟件在設計之初大多並未充分考慮緩慢故障這一較為復雜的故障模式。現有緩慢故障處理機製大多基於靜態超時(Static Timeouts)的方法,即針對不同指標(例如請求執行時間)預設閾值來判斷是否超時🎢。這些超時通常無法在系統運行時動態修改。因此,超時大多被設置得過於保守以避免誤報🧗🏼,且通常僅觸發重試、異常拋出甚至節點崩潰等較為嚴重的處理手段🧝🏼👧🏽。

    研究成果

    該研究首先構建了一套自動化緩慢故障測試工具鏈,通過註入不同類型的緩慢故障(如網絡丟包和文件系統讀寫延遲),並調節故障的嚴重程度與持續時間等🗯,定量分析現代分布式系統在面對動態多元且連續變化的緩慢故障時的性能下降表現🚴🏿。隨後,該研究探討了不同部署資源與負載壓力對系統緩慢故障容忍能力的影響,揭示了系統性能在緩慢程度變化關系中的“危險空間”🚶🏻。例如,當註入至ETCD主節點的網絡延遲從1ms增加到3ms時🧖🏽‍♂️,系統性能的下降幅度將從25%急劇升高至61%。識別這類危險空間有助於系統維護者在性能急劇下降前提前監控並有效緩解緩慢故障🧜🏽‍♀️。研究還發現🥞,微調系統超時閾值難以有效提升系統對不同緩慢故障的容忍能力,且長尾延遲並不總能有效表征緩慢故障。

    30a412d0aae0da0302248f5ebed632e.png

    靜態超時是分布式系統檢測緩慢故障的主要手段


    隨後,該研究進一步分析了當前分布式系統軟件針對緩慢故障的檢測、緩解和測試方法。通過深入剖析系統源碼,發現大部分分布式系統采用靜態超時機製來檢測緩慢,缺少針對緩慢故障的細粒度容忍手段。同時,系統開發人員大多通過調用sleep函數等方式偽造緩慢故障以進行單元測試,缺少真實故障場景下端到端的集成測試⛈。

    基於以上發現,該研究提出了一個輕量級緩慢故障檢測庫ADR🌻,開箱即用、無需額外配置即可將原有靜態超時邏輯轉換為自適應動態檢測邏輯🈲。經驗證,ADR可以實現輕量級(平均額外開銷僅2.8%)且快速(0.9-1.3秒級響應)的緩慢故障檢測👰‍♂️,顯著緩解Apache HBase等系統在面對各類緩慢故障時43-90%的性能損失🤰🏽,保證分布式系統持續、穩定的運行。

    USENIX NSDI

    NSDI會議創辦於2004年,是由美國高等計算系統協會(USENIX)😑、美國計算機學會操作系統專業組織(ACM SIGOPS)以及美國計算機學會數據通信專業組織(ACM SIGCOMM)聯合組織的聚焦計算機網絡領域的頂級國際會議,代表了計算機網絡系統領域的國際最高水平⛹🏽。本輪一共收錄55篇文章(接受率13.7%)✔️。

    電子信息與電氣工程學院
    電子信息與電氣工程學院
    沐鸣2娱乐专业提供:沐鸣2娱乐沐鸣2🙌🏿🫶、沐鸣2平台等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流🥱,沐鸣2娱乐欢迎您。 沐鸣2娱乐官網xml地圖