您現(xiàn)在的位置:首頁 > 智譜AI聯(lián)合焱融打造A100+全閃存儲的大規(guī)模AI架構
智譜AI聯(lián)合焱融打造A100+全閃存儲的大規(guī)模AI架構
在今年的北京冬奧會上我們見證了人工智能技術的先進性,現(xiàn)場應用涉及人工智能技術的方方面面,包含技術層的計算機視覺、語音識別、自然語言處理、機器學習、大數(shù)據(jù)管理、智能云等。為防止疫情傳播,無人化服務的全場景應用也是冬奧會的一大亮點。現(xiàn)場使用了大量的機器人和虛擬數(shù)字人來避免人員的接觸,極大提升了疫情防控效率。可以看到人工智能技術將實現(xiàn)從感知智能到認知智能的新突破,通往通用人工智能越來越成為人工智能領域的專家和學者探索和研究的方向。
目前,多模態(tài)人工智能作為一種新的人工智能范式,已經(jīng)在試圖“復制”人類在日常生活中的各類場景,盡可能把人類的感知信息進行分析處理,實現(xiàn)更全面綜合的理解,將“數(shù)據(jù)”和“知識”關聯(lián)并給出相應的回應。德國漢堡科學院院士張建偉認為人機交互的未來是多模態(tài)共享模式;計算機視覺領域專家賈佳亞教授則在多場演講中提出「多模態(tài)是人工智能的未來」。
多模態(tài) AI 場景的數(shù)據(jù)來源維度眾多,數(shù)據(jù)特征復雜,應用廣泛,數(shù)據(jù)量龐大。智譜 AI 作為多模態(tài)技術的代表,其數(shù)據(jù)規(guī)模通??蛇_到數(shù)十億乃至百億,涉及到 29 億參數(shù)通用中文預訓練模型、40 億參數(shù)通用文圖預訓練模型、80 億參數(shù)通用圖文預訓練模型、100 億參數(shù)通用英文預訓練模型。這些海量數(shù)據(jù)主要用于支撐 AI 產(chǎn)品的“智力”提升,投入到訓練中的數(shù)據(jù)量越大,AI 智能的準確度就越高。企業(yè)的長期發(fā)展需要穩(wěn)定的數(shù)據(jù)存儲平臺,而存儲的讀寫性能又決定了上層應用的性能和用戶體驗。
關于多模態(tài) AI 場景下的存儲建設目標,焱融科技認為海量數(shù)據(jù)管理和高性能輸出已成為剛需??偨Y來說就是以下 3 點:
海量多維度數(shù)據(jù)存儲能力(結構化、非結構化);
百億級數(shù)據(jù)量下的高性能支撐,高性能帶來高效率,促進多模態(tài) AI 快速迭代;
支持高速 RDMA 傳輸協(xié)議的 InfiniBand 網(wǎng)絡,實現(xiàn)高 IOPS、低延遲和穩(wěn)定的數(shù)據(jù)訪問性能。
全閃存儲架構的選擇
01 為什么選擇全閃存儲架構?
在智譜AI 業(yè)務發(fā)展的需求中,當構建百億級別的模型時,算力、網(wǎng)絡、存儲這三要素共同決定了模型最終的成熟度和產(chǎn)品先進性。通常情況下,算力依靠堆積 GPU 數(shù)量即可解決,而算力全面發(fā)揮的條件是網(wǎng)絡和存儲的能力要與算力保持一致,可提供高效的數(shù)據(jù)流轉能力和存儲供給能力。
目前 IT 建設中高性能數(shù)據(jù)中心已經(jīng)實現(xiàn)高速網(wǎng)絡的全面普及,例如:200Gb InfiniBand 已經(jīng)成為 HPC 計算/存儲的首選網(wǎng)絡技術,并開始向更先進的 400Gb 網(wǎng)絡技術迭代,那么存儲系統(tǒng)就成為決定業(yè)務發(fā)展快慢的關鍵因素。存儲的選擇需要貼合業(yè)務要求,此次存儲建設目標不但需要滿足業(yè)務層百億文件存儲,還需要滿足模型全流程生產(chǎn)要求。即從數(shù)據(jù)分類、模型訓練、仿真等環(huán)節(jié)考慮,存儲必須滿足不同類別文件的高性能響應,其中在訓練和仿真環(huán)節(jié)尤其重要,關乎產(chǎn)品迭代速度以及撲向市場服務客戶的體驗。
智譜AI 作為 AI 行業(yè)的領先企業(yè),目前已取得多項國際領先的 AI 技術突破,在超大規(guī)模智能模型訓練技術體系中占據(jù)領先地位,在選型存儲時最為關注以下幾點:
百億級別數(shù)據(jù)讀寫性能與元數(shù)據(jù)操作性能,在業(yè)務中,頻繁操作數(shù)據(jù),形成規(guī)模效應,存儲性能需要保證穩(wěn)定性;
業(yè)務數(shù)據(jù)包含大量的文本文件、視頻文件、音頻文件等多維度數(shù)據(jù),存儲作為數(shù)據(jù)的載體需要非常高的 IOPS 能力,普通機械硬盤性能不超過 200 IOPS。如果支持百億級數(shù)據(jù)業(yè)務模型,那么需要大量的磁盤用于存儲,顯然這樣的硬件選型是不合理的。目前業(yè)界主流高性能硬件已經(jīng)普及全閃的 NVMe SSD,單盤 IOPS 即可達到數(shù)萬。
在模型運算中,不僅僅存儲需要高 IOPS,還要同時兼容高性能網(wǎng)絡,將存儲能力通過網(wǎng)絡供給到計算層,完成數(shù)據(jù)的流轉。
基于以上三點業(yè)務需求分析,智譜AI 認為全閃存儲架構是其業(yè)務的最佳選擇。
02 為什么選擇焱融全閃文件存儲?
焱融科技深入研究智譜AI 的業(yè)務模型,此次儲解決方案立足多模態(tài) AI 場景,適配百億級數(shù)據(jù)規(guī)模,向計算集群提供高性能低時延的存儲服務能力。焱融科技使用 YRCloudFile 全閃文件存儲一體機 F8000X 用于海量數(shù)據(jù)存儲,YRCloudFile F8000X 集群中單節(jié)點可提供 200萬 IOPS 和 40GBps 帶寬,支持 RDMA 協(xié)議,實現(xiàn)存儲高性能支撐,使 IaaS 層全面提升性能,為 AI 業(yè)務夯實基礎能力。

在 AI 全業(yè)務流程內,數(shù)據(jù)需要經(jīng)歷的預處理、訓練、仿真等過程,焱融科技全閃文件存儲 F8000X 根據(jù)不同業(yè)務階段的特點,調用不同的存儲服務能力,滿足各個階段業(yè)務對數(shù)據(jù)服務能力的要求。在業(yè)務全過程中,數(shù)據(jù)始終處于 YRCloudFile 的全生命周期管理中,相比傳統(tǒng)存儲的分離架構,數(shù)據(jù)流轉成本大大降低,業(yè)務連續(xù)性得到保障。
多模態(tài) AI 數(shù)據(jù)來源維度眾多,在性能優(yōu)化層面較難,YRCloudFile 采用分布式并行架構,采用元數(shù)據(jù)路徑分離技術,讓百億級混合文件(大文件和小文件并存場景)數(shù)據(jù)讀寫和元數(shù)據(jù)查詢性能穩(wěn)定,并且可線性擴展,滿足智譜AI 多個產(chǎn)品項目的業(yè)務性能需求,快速提升“虛擬數(shù)字人”的迭代能力。
全閃存儲成為未來存儲主流趨勢
隨著數(shù)字經(jīng)濟成為全球經(jīng)濟發(fā)展的主旋律,數(shù)據(jù)要素的重要性將不斷提升,在云、大數(shù)據(jù)、人工智能等新技術驅動下,全行業(yè)新應用數(shù)據(jù)出現(xiàn)爆發(fā)式增長,為全閃存儲和分布式存儲高速發(fā)展帶來更多機遇。2021 年 Q4,Gartner 在全球存儲市場報告數(shù)據(jù)顯示,全球全閃存儲市場規(guī)模同比增長 13.9%,硬盤驅動器和混閃存儲下降 14.2%,全閃存儲在全球存儲市場占比首次超過 50%。近期,美國上市全閃存廠商 Pure Storage 發(fā)布的 2022Q2 財報顯示,其全閃陣列系列產(chǎn)品的營收在本季度繼續(xù)保持了強勁的增長,增長率超過 30%,且于上季度已實現(xiàn)了繼上市以來的首次盈利。在一些發(fā)達國家,全閃存應用比例普遍高于 55 %。
那么,在看看國內的全閃存儲市場概況, 2022 年 Q1 IDC 中國企業(yè)級存儲市場跟蹤報告中,數(shù)據(jù)顯示全閃存陣列同比增長 27.3%,而傳統(tǒng)機械硬盤 HDD 則出現(xiàn)負增長,國內全閃存勢頭緊追國外。市面上固態(tài)硬盤 SSD 價格幾乎接近于傳統(tǒng)硬盤 HDD 的價格,一套全閃存存儲性能相當于數(shù)幾十套傳統(tǒng) HDD 存儲總和。未來可預見 SSD 勢必將逐步取代最優(yōu)化性能的 HDD,或成為服務器與存儲系統(tǒng)的主要存儲裝置。

IDC 發(fā)布 2022年 Q1 中國企業(yè)級存儲市場跟蹤報告
市場上主流的全閃存儲產(chǎn)品形態(tài)大多是提供塊存儲服務,而針對需要分布式文件存儲高性能場景的全閃存儲產(chǎn)品卻少有。焱融科技在分布式文件存儲領域擁有先進的技術,其核心技術優(yōu)勢率先支持 400Gbps InfiniBand 網(wǎng)絡,打造 AI 時代 GPU 計算的高性能存儲。焱融全閃文件存儲 F8000X 其性能優(yōu)勢可實現(xiàn)單個存儲節(jié)點達到 40GB/s 帶寬、200 萬以上 IOPS。由于采用的是分布式存儲架構,性能可以通過增加節(jié)點的方式實現(xiàn)線性提升,其性能水平比肩國外知名全閃廠商,價格更勝出一籌,這也是焱融科技在眾多國外全閃存儲廠商中脫穎而出的原因。