Categories
程式開發

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍


北京時間 2020 年 5 月 14 日,英偉達一年一度的 GTC 大會終於得以在線上開幕。受疫情影響一推再推的這場大會,也終於沒有讓觀眾失望,帶來了一系列品質爆炸的新品,AI 前線 /InfoQ 對這場發布會進行了全程跟踪報導,以下是詳細內容。

引言:一波三折的 GTC 2020GTC 2020

原計劃 3 月 22 日到 26 日在美國加州聖何塞舉行,然而由於疫情,英偉達不得不考慮在線上舉行發布會。彼時,英偉達方面表示,公司創始人兼 CEO 黃仁勳還是會發表主題演講,並通過線上直播方式來進行交流互動。該會議的線上舉辦時間依然為 3 月 22 日至 26 日。

InfoQ 在當時也受到了線上大會的邀請。然而就在大會開始前兩天,InfoQ 接到消息稱:GTC 2020 線上大會暫時取消,新的發佈時間暫未確定。

當記者詢問原因時,對方表示也只是收到了通知,並沒有更多指示。此後很長一段時間,GTC 大會就這樣短暫消失在大眾視野中。

大約一個多月後,GTC 2020 的邀請再次到來,這場大會也如期而至。有趣的是,此次直播之前,黃仁勳先給各位觀眾上了一道“硬菜”:

安培架構終於來了

“The more you buy,the more money you save!

還是熟悉的配方,還是熟悉的味道,還是熟悉的皮夾克,黃仁勳來了,不過這次不是在台上,而是在他家的廚房裡。

受疫情影響,此次發布採取了線上直播的形式。說是直播,倒不如說是錄播的全放送,在 YouTube 上,英偉達官方帳號一次性放出了所有錄播片段,供觀眾觀看。

YouTube鏈接:
https://www.youtube.com/user/nvidia/videos

首先說說本次大會的第一個亮點:安培(Ampere)架構

如果對英偉達的技術和產品有所關注,那你一定聽過Pascal、Volta、Turing 這三種GPU 微架構的名字,分別發佈於2016 年、2017 年和2018 年,它們代表著英偉達GPU 的最高工藝水平,以這些架構為基礎的GPU 芯片為英偉達帶來了巨大收入。需要注意的是, Volta 架構當年就是專門為專業用途設計的,遊戲卡上則是 Pascal、Turing,這一次的安培架構可能也會類似,下一代遊戲卡會有另一個新架構。

根據早先一些媒體披露的消息,使用安培架構的計算顯卡應該會命名為 Tesla A100 。不久之後實錘來了,商標查詢網站 Justia 顯示,英偉達已經在今年 3 月 30 日悄然註冊了“DGX A100”,對應基於安培架構、GA100 核心 Tesla A100 計算卡的新一代深度學習工作站、AI 超級計算機。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 1

另外,根據本屆 GTC 大會前最新了解到的消息,安培架構的 GPU 會採用 7nm 製程。

隨著黃老闆的介紹,上述猜測都一一得到證實。

現代數據中心非常複雜,而英偉達一直希望加快整個數據中心的處理速度。過去幾年,業界各大科技公司提供的解決方案已經針對不同任務進行了優化。現如今,雲幾乎無處不在,大力發展雲端數據中心很重要,英偉達希望創造一個加速器,進一步增加大規模應用程序的吞吐量。

今天,英偉達正式宣布推出 NVIDIA A100,全新的數據中心 GPU,也就是之前網上盛傳的,被稱之為安培(Ampere)的產品,它包含 540 億晶體管,擁有比原來強大 20 倍的 AI 算力。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 2

據黃仁勳介紹,A100 的技術創新體現在以下 5 點:

1、台積電 7nm 工藝,將內存和芯片放在相同的基材上以便可以互操作,並且已經連接到HBM2 內存,該內存現在提供1.5TB 幀緩衝區帶寬,這是歷史上第一個每秒超過1TB 的帶寬的處理器。

2、 第三代 Tensor Core AI 核心,支持 TF32 運算,無需任何代碼改變就可以讓性能提升 20 倍,還支持 FP64 雙精度運算,與 HPC 應用相比帶來了 2.5 倍的性能提升。

3、 MIG 新架構:這是一項創新技術,可以將一個 GPU 劃分為七個獨立的 GPU,針對不同的目標提供運算,最大化提高計算效率。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 3

4、 NVLink 3.0:新一代 GPU 總線的性能翻倍,可以在服務器應用中提供更有效的性能擴展。

5、 結構稀疏性:這項新技術利用了 AI 運算中固有的稀疏性,從而實現了性能翻倍。

這 5 大技術創新使得 A100 加速卡不僅可用於 AI 推理、AI 訓練,還可以用於科學仿真、AI 對話、基因組與高性能數據分析、地震建模及財務計算等。黃仁勳表示,這是 NVIDIA 八代 GPU 史上最大的一次性能飛躍。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 4

與此同時,英偉達還發布了DGX A100 第三代系統,開箱即用,集成了該系統的計算機是世界上第一台單節點計算超過5 petaFLOPS 能力的計算機,售價199000 美元,除了整機也可提供分解組件銷售。

沒錯,英偉達與 Spark 3.0 合作了

說過了新品,再來聊聊其他重要發布。

高性能計算一直都是英偉達關注的領域,因此在本次直播中,黃仁勳宣布了一項重要決定:英偉達與 Spark 3.0 達成合作,將對 Spark 開放 GPU 計算能力

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 5

Spark 由於使用了存儲器內運算技術,能在數據尚未寫入硬盤時即在存儲器內分析運算,因此被用作數據處理的最佳工具之一。但是因為數據複雜度不斷上升,現在的企業與機構經常要處理數十甚至數百 TB 的數據,如果能將 GPU 的計算能力賦予 Spark,效率或許能夠有更多的提升。

黃仁勳介紹到,英偉達對 Spark 的賦能主要集中在以下幾點:

英偉達在 2019 年推出了 GPUDirect Storage 和 UCX,同時又有收購的 Mellanox 公司的技術加成,因此英偉達在存儲數據傳輸、IO 存儲以及多節點管理的速度都能夠做到“快如閃電”;

其次,使用 GPU 和 GPU 內存,Spark 的調度程序可以將任務進行分區,並以分佈式的方式進行安排與管理;

同時,Rapids 庫具有提取數據、創建數據框架、搭建特徵工程、執行 SQL 查詢和攔截等功能,這些能力可以對 Spark 起到很大幫助。對於 Spark,其 Catalyst 加速器已經得到了優化,能夠很好的適應英偉達 GPU。

那麼,英偉達與 Spark 的合作能夠帶來什麼好處呢?黃仁勳舉了一個例子:這套存儲有著高達 100 萬美元的造價,能夠提供每秒 17GB 的數據傳輸速度。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 6

然而有了 Spark 3.0 和 Rapids 的加成,數據的傳輸速度提升到每秒 163GB,性能達到了之前的十倍。

如果是以前,打造一個每秒163GB 傳輸速度的存儲中心的花費是1000 萬美元,帶來的功耗是140KW,現在只需200 萬美元的造價,56KW 的功耗,是原來成本的五分之一,功耗的三分之一。

因此,黃老闆說出了那句名言:買得越多,省得越多。

此外,英偉達在今天還發布了一個深度學習推薦應用框架。由於推薦系統屬於計算密集型工作,因此如何提升計算速度是非常重要的,也正因如此,英偉達推出了 Merlin 框架:

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 7

為使其易於使用,黃仁勳表示英偉達已經採用了複雜的訓練與計算來對它進行優化,因此只需要幾行代碼,就可以進行數據提取,數以TB 計算的數據拓展與分區都是自動完成的。

其他發布產品

交互式 3D 聊天機器人 Misty:圖形都是實時渲染

在發布會上,英偉達還推出了新的應用程序框架 Jarvis,它需要音頻輸入,並且可以通過幾何網格動畫生成說話時的面部動畫,準備好之後就可以連接到對話式AI 模型中,用戶詢問問題後,它會理解並回答問題,然後根據內容合成語音驅動的3D 模型,如下是英偉達的第一個交互式3D 聊天機器人Misty:

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 8

在聊到具體天氣時,Misty 可以根據天氣實時變化形態,比如,當天氣很冷時,Misty 的狀態是這樣的:

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 9

Misty 具有互動功能,需要 AI 技術處理自然語言、理解內容並實時渲染圖形,是一個端到端的處理過程,並且延遲很短,就好像是面對面互動交流,這就是 NVIDIA Jarvis 的目的,一個多模式對話式 AI 服務框架,可在各種場景中應用,比如視頻會議。

DLSS 深度學習超級取樣

兩年前,英偉達發布了 RTX。 RTX 有兩個開創性技術:第一是加速了光線跟踪,第二個開創性技術是深度學習。光線跟踪技術的市場競爭十分激烈,英偉達製造出的加速器儘管很優秀,但卻不夠快,所以才會有了人工智能。在過去 3 年裡,其致力於解決這一問題。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 10

黃仁勳表示,用最快的 GPU 生成一個分辨率相對較低的 5​​40p 圖片,以及一個運動向量。像素點在哪裡,就移動到哪裡,通過深度學習教會人工智能學習神經網絡,最終可以生成分辨率 1080p 的圖像。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 11

英偉達對此進行了無數次實驗,最終發現這個訓練後的神經網絡僅僅通過若干個像素點和運動向量就能生成漂亮的圖片。英偉達把這個神經網絡搭載到驅動程序中,將其稱之為 DLSS 深度學習超級取樣(Deep Learning Super Sampling)。

在 DLSS 1.0 和 2.0 版本的對比中可以看到,2.0 版本可以看到很多 1.0 版本中沒有展示出來的內容。這是因為神經網絡經過訓練後還原了圖片本來的樣子。因為在生成圖片的同時結合了運動向量,所以神經網絡能夠預測圖片裡面的內容。

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 12

英偉達安培架構來了! 7nm製程,540億晶體管,AI算力提升可達20倍 13

兩款邊緣 AI 平台此外,英偉達還推出了兩款計算平台,分別是適用於大型商業通用服務器的 EGX A100 和適用於微型邊緣服務器的 EGX Jetson Xavier NX 。

EGXA100 是基於安培架構的 A100 GPU,每秒可接收高達 200GB 數據並將其直接發送到 GPU 內存以進行 AI 或 5G 信號處理。 EGX Jetson Xavier NX 則被稱為全球體積最小、性能最強大的 Al 超級計算機,適用於微型服務器和邊緣智能物聯網盒。

結語:“核彈廠”回來了

在演講的一開始,黃仁勳說:

目前,英偉達的加速計算平台發展正處於轉折點,在過去幾年有兩個新的變化出現:加速計算機發展到了下一個階段,這種新型算法的出現稱為數據驅動或機器學習算法,數據處理和數據移動使得數據中心比以往任何適合時候都要重要。第二是我們正在使用的應用程序的處理量太大,不適合在任何計算機上運行。

他認為,未來十年,數據中心規模計算將更加規範化,而數據中心將是基本的計算單元。借助軟件定義的數據中心和應用程序,開發者能夠編寫出在在整個數據中心運行的應用程序,現在要考慮的是優化數據中心的整個端到端網絡,高速聯網的重要性和數據中心的處理能力正是英偉達收購Mellanox 的原因。

從今天的一系列發布上也能夠看出,英偉達的重心正在轉移,憑藉著自身的算力優勢和 Mellanox 的技術加持,英偉達找到了新的發展方向。

猶記得2018 年GTC China 前夕,英偉達股價遭到腰斬,市值蒸發200 億美元;一年後,英偉達斂起鋒芒,低調了一​​整年,直到年底的GTC China 2019 也沒有更多的新品發布,更是讓外界一度以為這家公司的威力不再;今天,英偉達用全新的產品向全世界宣布:英偉達仍然是那個驚喜不斷的“核彈廠”。

文章版權歸極客邦科技 InfoQ 所有,未經許可不得轉載。