選擇GPU服務(wù)器的N項(xiàng)基本原則,加速深度學(xué)習(xí)訓(xùn)練不再迷茫
GPU擅長(zhǎng)處理大規(guī)模深度學(xué)習(xí)訓(xùn)練以及部分典型HPC任務(wù)。經(jīng)常有朋友在咨詢?nèi)绾闻渲糜糜谏疃葘W(xué)習(xí)或計(jì)算加速的GPU服務(wù)器,今天就與大家分享一下選擇GPU服務(wù)器的基本原則。以下我們通過NVIDIA的主流產(chǎn)品進(jìn)行實(shí)例講解。
常見GPU服務(wù)器分類
首先介紹下常見的GPU和GPU服務(wù)器。以NVIDIA Tesla系列GPU為例,按總線接口類型可以分為NV-Link接口以及傳統(tǒng)PCI-e總線兩種。
1.NV-Link接口類型的GPU
典型代表是NVIDIA V100,采用SXM2接口,在DGX-2上有SXM3的接口。
NV-Link總線標(biāo)準(zhǔn)的GPU服務(wù)器
典型代表是NVIDIA公司設(shè)計(jì)的DGX超級(jí)計(jì)算機(jī)。DGX超級(jí)計(jì)算機(jī)不僅僅提供硬件,還有相關(guān)的軟件和服務(wù)。
2.傳統(tǒng)PCI-e總線接口的GPU
目前主流用于專業(yè)計(jì)算加速的NVIDIA Tesla GPU主要有:P4/P40(P開頭指的是上一代PASCAL架構(gòu))、P100、V100以及圖靈架構(gòu)Tesla T4這幾款。其中比較薄和只占一個(gè)槽位的P4和T4,通常用于Inference,目前也已經(jīng)有成熟的模型進(jìn)行推理和識(shí)別。
傳統(tǒng)PCI-e總線的GPU服務(wù)器分為兩類:
一類是OEM服務(wù)器,經(jīng)過NVIDIA官方測(cè)試認(rèn)證的廠商。比如我們寬泛科技不僅是NVIDIA的合作伙伴,同時(shí)已成為NVIDIA潛力AI公司加速計(jì)劃成員;
另一類是非OEM的服務(wù)器,也包括很多種類。
選擇GPU服務(wù)器的基本原則
選擇GPU服務(wù)器時(shí)首先要考慮業(yè)務(wù)需求來選擇適合的GPU型號(hào)。在HPC高性能計(jì)算中還需要根據(jù)精度來選擇,比如有的高性能計(jì)算需要雙精度,這時(shí)如果使用P40或者P4就不合適,只能使用V100或者P100;同時(shí)也會(huì)對(duì)顯存容量有要求,比如石油或石化勘探類的計(jì)算應(yīng)用對(duì)顯存要求比較高;還有些對(duì)總線標(biāo)準(zhǔn)有要求,因此選擇GPU型號(hào)要先看業(yè)務(wù)需求。
GPU服務(wù)器人工智能領(lǐng)域的應(yīng)用也比較多。在教學(xué)場(chǎng)景中,對(duì)GPU虛擬化的要求比較高。根據(jù)課堂人數(shù),一個(gè)老師可能需要將GPU服務(wù)器虛擬出30甚至60個(gè)虛擬GPU,因此批量Training對(duì)GPU要求比較高,通常用V100做GPU的訓(xùn)練。模型訓(xùn)練完之后需要進(jìn)行推理,因此推理一般會(huì)使用P4或者T4,少部分情況也會(huì)用V100。
當(dāng)GPU型號(hào)選定后,再考慮用什么樣GPU的服務(wù)器。這時(shí)我們需要考慮以下幾種情況:
第一、 在邊緣服務(wù)器上需要根據(jù)量來選擇T4或者P4等相應(yīng)的服務(wù)器,同時(shí)也要考慮服務(wù)器的使用場(chǎng)景,比如火車站卡口、機(jī)場(chǎng)卡口或者公安卡口等;在中心端做Inference時(shí)可能需要V100的服務(wù)器,需要考慮吞吐量以及使用場(chǎng)景、數(shù)量等。
第二、 需要考慮客戶本身使用人群和IT運(yùn)維能力,對(duì)于BAT這類大公司來說,他們自己的運(yùn)營(yíng)能力比較強(qiáng),這時(shí)會(huì)選擇通用的PCI-e服務(wù)器;而對(duì)于一些IT運(yùn)維能力不那么強(qiáng)的客戶,他們更關(guān)注數(shù)字以及數(shù)據(jù)標(biāo)注等,我們稱這類人為數(shù)據(jù)科學(xué)家,選擇GPU服務(wù)器的標(biāo)準(zhǔn)也會(huì)有所不同。
第三、 需要考慮配套軟件和服務(wù)的價(jià)值。
第四、 要考慮整體GPU集群系統(tǒng)的成熟程度以及工程效率,選擇有非常成熟的從底端的操作系統(tǒng)驅(qū)動(dòng)Docker到其他部分都是優(yōu)化過的服務(wù)器,這時(shí)效率就比較高。
專業(yè)深度學(xué)習(xí)解決方案加速AI研究
綜上所述,選擇服務(wù)器時(shí)除了分類,還要考慮性能指標(biāo),比如精度、顯存類型、顯存容量以及功耗等,同時(shí)也會(huì)有一些服務(wù)器是需要水冷、降噪或者對(duì)溫度、移動(dòng)性等等方面有特殊的要求,就需要特殊定制的服務(wù)器。
寬泛科技旗下Cloudhin?云軒支持Deep learning和高性能計(jì)算服務(wù)器定制,針對(duì)主要深度學(xué)習(xí)框架(如TensorFlow、Caffe 2、Theano或Torch)進(jìn)行了優(yōu)化和設(shè)置,在桌面上即可提供強(qiáng)大的深度學(xué)習(xí)功能。
Cloudhin?云軒GS4288-P4采用Intel C612最高速芯片組,性能穩(wěn)定,可搭載兩顆E5-2600 v4/v3(24核48線程),內(nèi)存最大支持3TB內(nèi)存。
最高可搭載8個(gè)NVIDIA圖形處理器,RTX 2080/S/TI、RTX TITAN/V、TESLA T4/P100/V100,均支持按需定制。讓您輕松應(yīng)對(duì)分子動(dòng)力學(xué)模擬、排序,生命科學(xué)與醫(yī)療分析、石油天然氣勘探、GPU虛擬化服務(wù)器,是復(fù)雜模型計(jì)算的理想選擇。
專業(yè)勤修,銳意進(jìn)取。云軒技術(shù)工程師畢業(yè)于NVIDIA深度學(xué)習(xí)研究所,豐富經(jīng)驗(yàn),值得信賴。更多定制方案請(qǐng)聯(lián)系客服,我們將實(shí)時(shí)響應(yīng)您的定制需求。