
在NVIDIA的SIGGRAPH 2018主題演講中,公司首席執(zhí)行官Jensen Huang正式公布了該公司期待已久的圖靈GPU架構(gòu)。作為下一代NVIDIA的GPU設(shè)計(jì),圖靈將采用一系列新功能,并將于今年推出。雖然今天宣布的重點(diǎn)是專業(yè)可視化(ProViz)方面的問(wèn)題,在其他即將推出的NVIDIA產(chǎn)品中可能也將看到這一點(diǎn)。同樣地,今天的發(fā)布不應(yīng)被視為圖靈所有特征的詳盡列表。
混合渲染和神經(jīng)網(wǎng)絡(luò):RT和Tensor核心
那么圖靈帶來(lái)了什么呢?至少對(duì)于NVIDIA的專業(yè)人群而言,亮點(diǎn)是混合渲染,它將光線跟蹤與傳統(tǒng)光柵化相結(jié)合,以充分利用這兩種技術(shù)的優(yōu)勢(shì)。

NVIDIA將在Turing中包含更多的光線跟蹤硬件,以便提供更快,更高效的硬件光線跟蹤加速。圖靈體系結(jié)構(gòu)的新功能是NVIDIA稱之為RT核心的,其基礎(chǔ)是我們目前尚未充分了解,但作為專用光線跟蹤處理器。這些處理器塊加速了光線三角形交叉檢查和邊界體積層次(BVH)操作,后者是用于存儲(chǔ)光線跟蹤對(duì)象的非常流行的數(shù)據(jù)結(jié)構(gòu)。
NVIDIA表示,最快的圖靈部件每秒可以投射10億(千兆)射線,與未加速的帕斯卡相比,光線追蹤性能提高了25倍。
圖靈結(jié)構(gòu)也承載了Volta的tensor核心,甚至比Volta還要強(qiáng)大。tensor核心是NVIDIA計(jì)劃的重要項(xiàng)目之一。除了加速光線跟蹤本身之外,NVIDIA的其他工具還包括通過(guò)使用AI去噪來(lái)清理圖像來(lái)減少場(chǎng)景中所需的光線量,這是tensor核心所擅長(zhǎng)的。當(dāng)然,這并不是tensor核心的唯一亮點(diǎn)--NVIDIA的整個(gè)AI/神經(jīng)網(wǎng)絡(luò)帝國(guó)都是基于tensor核心群, 所以雖然不是SIGGRAPH人群的主要關(guān)注點(diǎn),但這也證實(shí)了NVIDIA即將到來(lái)的GPU是最強(qiáng)大的神經(jīng)網(wǎng)絡(luò)硬件。
新一代圖靈核心支持更廣泛的精度,可以在不需要高精度的工作負(fù)載中實(shí)現(xiàn)顯著的加速。除了Volta的FP16精密模式之外,圖靈的tensor核心還支持INT8甚至INT4精度,分別比FP16快2倍和4倍。雖然NVIDIA的PPT里沒有詳說(shuō),但是有人認(rèn)為Nvidia正在做類似于他們用于CUDA核心上的低精度操作的數(shù)據(jù)壓縮。因此,較低精度的模式雖然并不總是有用,但無(wú)疑會(huì)使一些用戶對(duì)數(shù)據(jù)吞吐量非常滿意,尤其是在推理任務(wù)中。
為了更好地利用光線追蹤和專業(yè)深度學(xué)習(xí)軟件之外的tensor核心,NVIDIA將推出一個(gè)SDK---NVIDIA NGX,將神經(jīng)網(wǎng)絡(luò)集成到圖像處理中。NVIDIA正在設(shè)想使用神經(jīng)網(wǎng)絡(luò)和tensor核心進(jìn)行額外的圖像和視頻處理,包括即將推出的深度學(xué)習(xí)抗鋸齒(DLAA)等方式。
圖靈SM:可變速率著色,專用INT核心等
除了專用的RT和tensor核心,圖靈架構(gòu)流式多處理器(SM)本身也在學(xué)習(xí)一些新的技術(shù)。特別是在這里,它繼承了Volta的一個(gè)更新穎的變化,它將整數(shù)核心分離成自己的塊,而不是浮點(diǎn)CUDA核心的一個(gè)部分,加速了地址生成和融合乘法加法(FMA)性能。
說(shuō)到ALU,NVIDIA已經(jīng)確認(rèn)圖靈支持“可變速率著色”,這是用于著色器性能隨數(shù)據(jù)類型大小縮放的術(shù)語(yǔ)。在Volta中,這表現(xiàn)為FP16操作速度是FP32速率的2倍,INT8操作速度是INT32速率的4倍??勺兯俾手⒖焖俅虬鼣?shù)據(jù)包以及將多個(gè)較小的操作打包到一個(gè)較大的操作中的相關(guān)操作,都是在摩爾定律減速時(shí)提高GPU性能的關(guān)鍵組成部分。通過(guò)判斷需要使用精確的數(shù)據(jù)類型,可以將它們打包在一起以在相同的時(shí)間段內(nèi)完成更多的工作,反過(guò)來(lái)對(duì)于神經(jīng)網(wǎng)絡(luò)推理和其他類似的動(dòng)作尤其重要,因?yàn)榈侥壳盀橹梗蠖鄶?shù)神經(jīng)網(wǎng)絡(luò)模型顯示它們不需要提供與FP32/INT32相近的精度。
Turing SM還包括NVIDIA稱之為“統(tǒng)一緩存架構(gòu)”的內(nèi)容。NVIDIA表示它提供的帶寬是“上一代”的兩倍,目前還不清楚NVIDIA是指Pascal還是Volta,Pascal可能性更大。
下面是第一代GDDR6顯存規(guī)格:

相對(duì)于GDDR5X而言,GDDR6的提升并不像過(guò)去的幾代產(chǎn)品那么大,因?yàn)镚DDR6的許多創(chuàng)新已經(jīng)融入到GDDR5X中,GDDR6有望成為除了HBM2這種高端產(chǎn)品外的GPU行業(yè)標(biāo)準(zhǔn)顯存。GDDR6工作電壓更低,僅1.35v,內(nèi)部存儲(chǔ)器現(xiàn)在被分成每個(gè)芯片兩個(gè)存儲(chǔ)器通道。 對(duì)于標(biāo)準(zhǔn)的32位寬芯片,這意味著一對(duì)16位存儲(chǔ)器通道,256位卡上總共16個(gè)這樣的通道。 GPU可以很好利用這些通道,畢竟顯卡是一種大規(guī)模并行設(shè)備。

NVIDIA已經(jīng)證實(shí),第一款Turing Quadro顯卡將以14Gbps的速度運(yùn)行GDDR6,這恰好是所有Big 3成員提供的最快速度等級(jí)。 也就是說(shuō),NVIDIA也證實(shí)了使用三星的顆粒,特別是先進(jìn)的16Gb容量模塊。 對(duì)于典型的256位GPU來(lái)說(shuō),NVIDIA可以使用標(biāo)準(zhǔn)的8個(gè)模塊裝配卡,并獲得16GB的總?cè)萘?,甚至可以達(dá)到32GB。

與此同時(shí),游戲玩家和專業(yè)用戶對(duì)VR的期待變?yōu)楝F(xiàn)實(shí),新一代顯卡增加了VirtualLink支持。而USB Type-C備用模式于上個(gè)月發(fā)布,通過(guò)一根電纜支持15W +電源,可傳輸10Gbps USB 3.1 Gen 2數(shù)據(jù)和4通道DisplayPort HBR3視頻。這可以被視為有額外數(shù)據(jù)和電源的DisplayPort 1.4,允許視頻卡直接驅(qū)動(dòng)VR設(shè)備。該標(biāo)準(zhǔn)得到了NVIDIA,AMD,Oculus,Valve和微軟的支持,因此圖靈產(chǎn)品將成為支持該標(biāo)準(zhǔn)的眾多產(chǎn)品中的第一款。

核心數(shù)字:

即將到來(lái)的2018年第四季度
除了圖靈架構(gòu),NVIDIA還宣布推出基于圖靈GPU的前3款Quadro顯卡 - Quadro RTX 8000,RTX 6000和RTX 5000 - 將于今年第四季度上市。對(duì)于NVIDIA的特斯拉客戶來(lái)說(shuō),圖靈的發(fā)布讓Volta處于不穩(wěn)定的狀態(tài)。 NVIDIA沒有告訴我們圖靈是否最終會(huì)擴(kuò)展到高端的特斯拉空間 - 取代GV100 - 或者說(shuō)明Volta是否仍將成為所在領(lǐng)域的頂梁柱。

川公網(wǎng)安備 51010702001250號(hào)