精品久久久久久中文字幕,狠狠干夜夜操,高h纯肉无码视频在线观看,日韩欧美成人一区二区三区,日本三级电影精品五区

Sep 20, 2024

寬泛科技聯(lián)手華為數(shù)據(jù)存儲,構(gòu)建先進大模型訓(xùn)練平臺

上海寬泛科技有限公司(以下簡稱寬泛科技),成立于2016年,是以AI算力設(shè)備、AI算法應(yīng)用的研發(fā)、生產(chǎn)、銷售及行業(yè)解決方案定制為主營業(yè)務(wù)的“上海市高新技術(shù)企業(yè)”和“專精特新企業(yè)”。

近些年,人工智能技術(shù)快速發(fā)展,宛如一顆璀璨的新星,成為推動科技和產(chǎn)業(yè)加速發(fā)展的重要力量,為經(jīng)濟社會的發(fā)展和人類文明的進步帶來了深遠且持久的影響。2023年寬泛科技攜手教育部科技發(fā)展中心,發(fā)布了中國高校產(chǎn)學(xué)研創(chuàng)新基金,這一舉措旨在全力支持高校在人工智能領(lǐng)域的課題研究,為培養(yǎng)未來的人工智能人才和推動學(xué)術(shù)創(chuàng)新貢獻力量。

強大的基礎(chǔ)設(shè)施是AI技術(shù)的推動力,為此,寬泛科技聯(lián)合華為數(shù)據(jù)存儲,使用華為AI數(shù)據(jù)湖解決方案一同構(gòu)建先進的訓(xùn)練平臺。華為AI數(shù)據(jù)湖解決方案是訓(xùn)練平臺的重要組成部分,它基于多套OceanStor AI存儲,依托多協(xié)議互通、智能數(shù)據(jù)分級以及高性能并行客戶端的專業(yè)存儲能力,提供令人驚嘆的TB級帶寬以及強大的EB級容量擴展實力,從而加速大模型的訓(xùn)練。

11

寬泛科技:構(gòu)建AI訓(xùn)練平臺面臨挑戰(zhàn)


| 算力可用度的提升

大模型訓(xùn)練以多機多卡任務(wù)為主,往往會用到成千上萬張GPU卡,運行過程中常常面臨各種故障,如網(wǎng)絡(luò)波動、硬盤故障、GPU故障等,這些故障都可能導(dǎo)致訓(xùn)練任務(wù)意外中斷。因此,大模型算力的實際可用度普遍低于50%,這對訓(xùn)練效率和資源利用率構(gòu)成了顯著的影響。為了對訓(xùn)練到推理的全流程進行優(yōu)化,寬泛科技意識到使用專業(yè)的AI存儲避免GPU無效等待至關(guān)重要。


| 容量平滑擴展能力

隨著算力租賃市場的蓬勃發(fā)展以及多模態(tài)智能化技術(shù)的不斷演進,寬泛科技的AI集群規(guī)模亟需從千卡規(guī)模演進至萬卡。這一過程導(dǎo)致數(shù)據(jù)量的激增,存儲容量也需要從幾PB到幾十PB,甚至擴展到EB級。在靈活擴展的同時,還要兼顧成本,這就需要提高存儲介質(zhì)的利用效率,對數(shù)據(jù)進行“溫”、“冷”、“熱”的區(qū)分,將它們存在相應(yīng)的存儲介質(zhì)上,能夠顯著降低存儲成本。


| 并發(fā)可靠訪問能力

隨著越來越多的研究人員加入到高校人工智能課題的研究,寬泛科技所要求的AI集群規(guī)模也越來越大,同時會有上千名研究員并發(fā)測試、調(diào)度、調(diào)優(yōu)等,且隨著業(yè)務(wù)量逐漸加大,并發(fā)量還將逐漸增大,因此對存儲的高并發(fā)可靠訪問能力也有非常高的要求。

222

寬泛科技與華為數(shù)據(jù)存儲強強聯(lián)手,共同構(gòu)建起領(lǐng)先的大模型訓(xùn)練平臺,它基于寬泛飛魚調(diào)度平臺和華為AI數(shù)據(jù)湖解決方案,為客戶提供端到端(E2E)的解決方案。這一方案能夠大大節(jié)省客戶在選型和調(diào)優(yōu)上所耗費的時間,幫助客戶在短時間內(nèi)完成更多的任務(wù)。無論是在仿真實驗室、氣象預(yù)測,還是 AI 助教等高等教育人工智能訓(xùn)推場景中,都能夠?qū)崿F(xiàn)快速部署,高效運用。

華為AI數(shù)據(jù)湖解決方案憑借其良好的兼容性、EB級容量擴展能力以及超高性能等顯著特質(zhì),成為寬泛算力中心數(shù)據(jù)基礎(chǔ)設(shè)施的首選方案。這一方案極大的提升了AI集群算力可用度,顯著提高了建設(shè)效率。



| 高效解決GPU利用率低難題

華為AI數(shù)據(jù)湖解決方案的高速并行文件系統(tǒng)DPC在構(gòu)建先進訓(xùn)練平臺中發(fā)揮著關(guān)鍵作用,特別是在多節(jié)點并發(fā)場景下,能夠提供TB級帶寬、性能優(yōu)于Lustre 2倍之多,能夠使AI集群GPU利用率提升10%,其卓越的性能為算力中心提供強大動力,加速企業(yè)算力中心訓(xùn)推的整個流程。


| 從容應(yīng)對數(shù)據(jù)增長與算力需求

隨著數(shù)據(jù)量的不斷增加,訓(xùn)練平臺集群規(guī)模需要同步擴展,華為AI數(shù)據(jù)湖解決方案完美契合了算力平臺平滑演進的需求,支持最大4096節(jié)點橫向擴展,實現(xiàn)從PB級到EB級容量擴展。

此外,還支持數(shù)據(jù)智能溫?zé)岱旨?,借此?yōu)化資源利用率,保障關(guān)鍵數(shù)據(jù)快速訪問。采用性能層與容量層配合,性能層存儲熱數(shù)據(jù)和高頻訪問的數(shù)據(jù),提供高速的讀寫性能和低延時;容量層存儲溫冷數(shù)據(jù),這些數(shù)據(jù)訪問頻率較低,但是對存儲容量的需求較大。通過這樣的設(shè)計,能夠兼顧AI場景混合數(shù)據(jù)負載訴求,實現(xiàn)存儲價值最大化。


| 打破數(shù)據(jù)孤島,挖掘價值寶藏

通過統(tǒng)一的存儲平臺以及無損多協(xié)議互通,數(shù)據(jù)湖實現(xiàn)了統(tǒng)一管理。它成功消除了傳統(tǒng)數(shù)據(jù)存儲方式中數(shù)據(jù)分散在不同系統(tǒng)和應(yīng)用中的“數(shù)據(jù)孤島”問題,為客戶數(shù)據(jù)中心提供統(tǒng)一存儲底座,并且能夠與寬泛飛魚調(diào)度平臺兼容,有力支撐寬泛混合算力的部署,大大節(jié)省了客戶選型和調(diào)優(yōu)的時間,幫助企業(yè)更全面的管理自身的數(shù)據(jù)資產(chǎn),進而深度挖掘其中蘊含的價值。
寬泛科技聯(lián)合華為數(shù)據(jù)存儲,以寬泛飛魚調(diào)度平臺和華為AI數(shù)據(jù)湖解決方案為基礎(chǔ),融合先進的算法和高可靠的數(shù)據(jù)湖底座,共同打造出更加先進的訓(xùn)練平臺。成功打破“數(shù)據(jù)孤島”,架起聯(lián)通數(shù)據(jù)與知識的橋梁,加速AI人工智能的涌現(xiàn)。

                                                     (來源:華為數(shù)據(jù)存儲 公眾號)