GTC20干貨縱覽|取代摩爾定律,黃氏法則成AI性能最新標準!
12月15日上午10點,NVIDIA召開GTC20中國線上大會,今日的主題演講嘉賓由NVIDIA CEO黃仁勛換成了首席科學家Bill Dally,分享關于AI、計算機圖形學、高性能計算、邊緣計算、機器人等領域最前沿的創(chuàng)新以及AI推理、GPU集群加速等最新的研究成果。
黃氏定律:AI性能實現(xiàn)逐年翻倍
NVIDIA的研究人員致力于打造速度更快的AI芯片,并將其用于具有更高帶寬的系統(tǒng),從而簡化編程。
下面這張圖表展示了從2012年的Kepler,一直到今年5月份的Ampere A100,單芯片推理性能提高了317倍。
這就是「黃氏法則」——推理性能每年翻一倍。Bill Dally稱:“在‘摩爾定律’失效的當下,如果我們真想提高計算機性能,‘黃氏定律’就是一項重要指標,且在可預見的未來都將一直適用?!?/p>
接著在談到如何成功實現(xiàn)“黃氏定律 (Huang’s Law)”時,Bill Dally著重分享了自己200人研究團隊在AI、高速互聯(lián)領域的相關研究。
1.超高能效加速器
NVIDIA 研究人員專門開發(fā)了一種名為MAGNet的工具,其生成的AI推理加速器在模擬測試中,能夠達到每瓦100 teraops的推理能力,比目前的商用芯片高出一個數(shù)量級。
MAGNet采用了一系列新技術來協(xié)調(diào)并控制通過設備的信息流,最大限度地減少數(shù)據(jù)傳輸,而數(shù)據(jù)傳輸正是當今芯片中最耗能的環(huán)節(jié)。這一研究原型以模組化實現(xiàn),因此能夠靈活擴展。
2.發(fā)揮所有光子的潛能
研究團隊還開展了一項研究,旨在以更快速的光鏈路取代現(xiàn)有系統(tǒng)內(nèi)的電氣鏈路。通過一條光纖來傳輸數(shù)十路信號,有望在僅一毫米大小的芯片上實現(xiàn)Tb/s級數(shù)據(jù)的傳輸,是如今互連密度的十倍以上。
除了更大的吞吐量,光鏈路也有助于打造更為密集型的系統(tǒng)。Dally舉例展示了一個未來將搭載160多個GPU的NVIDIA DGX系統(tǒng)模型(上圖)。
3.立足網(wǎng)絡領域
Dally還牽頭開展了一項合作,構建了NVLink和NVSwitch最初的原型。NVLink和NVSwitch如今用于全球最大型的超級計算機中,實現(xiàn)了其內(nèi)部GPU的互連。
在11月舉行的超算TOP500榜單中,采用NVIDIA技術的超算在前10名中占了8位,Selene超算在TOP500和Green500中都排名第五。
NVIDIA芯片深融中國創(chuàng)新土壤
NVIDIA A100,不僅是世界最大的7nm芯片,具有540億個晶體管,而且與之前的AI推理方案Turing T4相比,在所有基準測試中,A100的速度都提高了6到8倍。
最讓Dally興奮的是,Ampere破解了如何利用神經(jīng)網(wǎng)絡的稀疏性來獲得更好的性能。如果需要縮減它的計算能力,MIG(多實例GPU)還可以將一個A100分解為7個獨立的GPU,以便每個GPU都能運行各自的任務。
在中國,眾多CSP客戶已采用NVIDIA A100 Tensor Core GPU和NVIDIA技術,用于提速各類AI應用,如推薦、廣告、搜索、直播、視頻等等。
淘寶使用NVIDIA GPU 計算平臺,為直播和基于AI的推薦系統(tǒng)提供加速,從而為觀眾帶來個性化體驗。
快手針對低分辨率短視頻,利用 GPU 做超分辨率處理, 提高視頻分辨率到720p或1080p。
Bigo Live使用 GPU 提升視頻內(nèi)容創(chuàng)作和內(nèi)容理解能力。
虎牙通過開發(fā)AI數(shù)字人業(yè)務,為內(nèi)容創(chuàng)建者創(chuàng)造獨特的用戶體驗,其中GPU在AI和渲染技術方面發(fā)揮了關鍵作用。
JDL京東物流和NVIDIA將共同致力于把江蘇常熟打造成全球首座“智能配送城”,以解放快遞員雙手、緩解快遞員短缺的情況,并有助于降低人力成本。
通過搭載NVIDIA Jetson AGX Xavier,并配備高分辨率攝像頭以及激光雷達,JDL京東物流智能快遞車可實時識別行人、車輛和交通信號燈等物體,并根據(jù)所處環(huán)境規(guī)劃駕駛路線,確保交通安全。
NVIDIA Jetson AGX Xavier可提供32TOPS的AI性能,該模塊尺寸為100x87mm,僅為大型工作站的十分之一,卻提供了與大型工作站相當?shù)膬?yōu)越性能。因尺寸小巧,該模塊十分適合搭載于配送和物流機器人、工廠系統(tǒng)和大型工業(yè)UAV等自主機器。
寬泛科技—NVIDIA AI加速計劃成員
8卡A100服務器、全系Jetson定制提供
Dally回顧AI發(fā)展的歷程時,他說到:“當前的AI革命其實就是由GPU創(chuàng)造的,以深度神經(jīng)網(wǎng)絡為例,有3個關鍵組成部分在發(fā)揮作用,算法,即深度神經(jīng)網(wǎng)絡本身,訓練數(shù)據(jù),以及運行所需的硬件?!?/p>
寬泛科技作為英特爾、英偉達等芯片及品牌廠商的堅實合作伙伴,NVIDIA潛力AI公司加速計劃成員,攜手專注為人工智能提供硬件解決方案及相關服務,已成為國內(nèi)過萬家企業(yè)、院校及研究機構的信息化解決方案供應商。
NVIDIA A100的Tensor Core借助Tensor浮點運算 (TF32) 精度,可提供比上一代Volta高20倍之多的性能,并且無需更改代碼;若使用自動混合精度和FP16,性能可進一步提升2倍。它代表了強大的數(shù)據(jù)中心端到端AI和HPC平臺,在超大模型和龐大數(shù)據(jù)集下,實現(xiàn)出色加速,有效助力全球高性能彈性數(shù)據(jù)中心。
Cloudhin云軒8卡A100 GPU服務器最高可集成8塊NVIDIA TESLA A100,單機多卡高密度集成,專為世界上最嚴苛、最復雜的工作負載運算提供卓越性能而設計,幫助企業(yè)、高校及研究人員輕松應對AI、數(shù)據(jù)科學、科研計算等多個領域的大型深度學習模型訓練和大量數(shù)據(jù)的推理。
無論對于大型企業(yè)、中小型企業(yè)還是研究機構而言,Jetson系列模塊都可以提供滿足特定性能和預算需求的解決方案。無人機、自動化工控、智能安防和智慧影像分析等行業(yè)專業(yè)應用,歡迎聯(lián)系我們進行配套定制。
專業(yè)勤修,銳意進取,Cloudhin云軒技術工程師畢業(yè)于NVIDIA深度學習研究所,豐富經(jīng)驗,值得信賴。更多行業(yè)定制方案請聯(lián)系客服,我們將實時響應您的定制需求。
如果您有合作需求或寶貴建議,歡迎來信。
郵箱:hezuo@kuanfans.com
合作熱線:021-5415 5559