Product model
對于存儲供應商而言,MLCommons協會2023年發布的MLPerf Storage v1.0 AI存儲基準性能測試,無疑是一個市場推廣的制高點。該測試是由圖靈獎得主David Patterson聯手頂尖學術機構推動的標準,通過建模機器學習等AI工作負載,對存儲系統I/O模式和性能進行評測,為ML/AI模型存儲選型提供權威參考依據。
在最新披露的MLPerf Storage v1.0測試中,浪潮信息AS13000G7分布式存儲平臺表現出眾,在3D-UNet和CosmoFlow兩個模型共計8項測試中,斬獲5項最佳成績。
10月18日,浪潮信息存儲產品線副總經理劉希猛、浪潮信息分布式存儲研發部總經理張在貴、浪潮信息分布式存儲產品線副總經理安祥文、浪潮信息分布式存儲方案架構師Lance SUN接受各個媒體采訪,分享了MLPerf Storage v1.0測試的經驗。
據了解,本次MLPerf存儲基準評測(v1.0)吸引了全球13家存儲廠商和研究機構參與,圍繞醫學影像分割、圖像分類、宇宙學參數預測垂直領域內的 3D-Unet 、 ResNet50、 CosmoFlow三個典型算法,重點考察與之匹配的存儲系統的總帶寬/每節點帶寬,以及存算配比指標的能力。
這些指標對于AI至關重要,原因很簡單,如今承擔算力的GPU資源非常昂貴,萬卡集群所能提供的算力驚人,資金投入同樣驚人,在這種情況下,高效利用GPU資源意義重大。眾所周知的“木桶效應”表明,木桶盛水的多寡是由短板而非長版決定的,AI系統也是一樣,不論決定模型訓練數據加載,還是模型訓練過程中斷點續訓,其加載速度不能拖GPU的后腿,加載時間越短越好,不要讓GPU資源出現閑置、等待的狀態。
有鑒于此, MLPerf存儲基準評測(v1.0)對GPU利用率設置了門檻,其中,3D-UNet的要求是90%以上,Resnet50、CosmoFlow的要求是70%以上,換句話說,留給存儲數據加載的時間,最苛刻的只有10%,在滿足這個前提下,對于存儲系統的吞吐能力,以及所能夠支持GPU數量進行考察,也就是上面圖標中所說的加速器數量,這里的數據越大越好。
順帶提一句,在這次參加測試產品中,Resnet50始終達不到70%利用率的指標,后來MLCommons協會對MLPerf Storage v1.0軟件進行了調整。因此,此次測試,3D-UNet、CosmoFlow更能夠說明問題。
要想在MLPerf存儲基準評測(v1.0)中取得佳績,采取NVMe SSD全閃集群架構設計是一定,SATA SSD以及混閃架構設計達不到性能的需要。此外,網絡帶寬也是一定要滿足的條件,有專業技術人員指出,“網絡400G連接完全是被GenAI催生出來的需求,其技術本身沒那么成熟,類似性能抖動是必須要解決的工程上的難題?!?
劉希猛透露,浪潮信息在這次測試中,采用了InfiniBand網絡方案,但浪潮信息也準備了以太網絡方案,可以幫助用戶更好控制成本。
對于參測的存儲系統而言,必須要一致性分布式管理系統來進行組織協調,以浪潮信息的方案為例,其控制層面采用有針對的管理和調度,對節點間流轉的數據流進行管控,減少東西向(節點間)數據轉發量,因為頻繁的節點間數據轉發,必然拖累存儲系統的整體效能;再有就是頻繁的IO中斷以及上下文切換,同樣是需要極力避免的問題。為此,浪潮信息分布式存儲平臺AS13000G7采用了多路并發透傳技術,將多個 I/O 請求進行整合和批處理,使得系統能一次性處理多個請求,而不是逐個處理,由此減少了上下文切換的次數;該系統允許多個 IO通道同時傳輸數據,充分的利用存儲系統的硬件資源和網絡帶寬。
此外,在數據傳輸過程中,還需要注意減少格式轉換、數據校驗等中間處理環節,采用數據直通傳輸的方式。還需要注意增強文件系統與計算節點親和性,確保負載均衡。從浪潮信息存儲的實踐看,好的設計能夠將數據移動與多核CPU之間的訪問效率提升400%。
從表現看,在3D-UNet測試場景中,AS13000G7三節點存儲實現了1430個高并發讀線秒以內,AI端到端訓練I/O占比低于10%,計算節點帶寬利用率達到了72%,實現了單存儲節點120 GB/s的超高性能。在單客戶端2和多客戶端2 CosmoFlow宇宙學分析應用的評測任務中,AS13000G7也分別提供了18 GB/s和52 GB/s的帶寬最佳成績。
劉希猛指出,人工智能賦能千行百業,背后離不開數據這個關鍵生產要素,數據連接了物理世界和數字世界,而數據存儲作為數據的載體,是人工智能落地的關鍵支撐之一。
如今,輿論的焦點都集中在大模型AI創造的神奇,但是對于創造奇跡的過程缺乏必要的了解。在存儲配套方面也存在類似問題,輿論更多關注模型訓練的數據加載、過程中的斷點續訓,青睞TB級、萬卡算力等指標,但是忽視了數據歸集、清洗的重要性,大模型AI要行業落地,勢必牽涉到要將分散在終端、地域,跨協議、跨地域數據來進行處理,涉及到大數據組件Spark、以及Clip等工具的使用,這也需要適合的存儲系統提供支撐。這也是存儲系統選型重要的考察內容。
對此,浪潮信息AS13000G7同樣表現出色,憑借非結構化協議融合、富元數據管理等技術支撐,AS13000G7可以在一定程度上完成文件、對象、大數據、視頻協議互通,語義無損、性能一致,僅保存一份存儲池數據,就可以支撐多種協議訪問,避免了數據拷貝,實現最高50%數據存儲空間的節省。此外,其系統可靠性以及韌性同樣出色。試想,如果存儲系統韌性不足,導致訓練中斷,則任何努力都將付之東流。對此,要求存儲系統提供主動管理技術能力,對硬件、網絡、系統等進行仔細的檢測,在系統亞健康就采取一定的措施,進行免數據遷移的快速微重構,而這些不能離開AI技術的加持。
劉希猛指出,無論采用什么樣的進階路線和方法,生成式AI對行業的影響將是史無前例的,其中數據成為智能革命的核心動力。圍繞著數據歸集、訓練和推理,應該構建起強大的算力、存力基礎設施,會發揮事半功倍的效果,磨刀不誤砍柴工。對于浪潮信息而言,參加MLPerf Storage v1.0 AI存儲基準測試也不過是小試牛刀,在展示技術水平和能力的同時,也加深了對于生成式AI技術的適配和了解,將繼續全力推動AI產業化和產業AI化進程。
HOT PRODUCT