SC19：Exascale超級運算競賽開跑！

首頁 » SC19：Exascale超級運算競賽開跑！

2019-12-03

作者 Kevin Krewell，TIRIAS Research首席分析師

今年的超級運算大會(SC19 @Supercomputing)可說是業界巨擘和AI新創公司展現自家方案的好機會，不過，業界更關注的是即將在2021年實現的Exascale超級電腦系統...

高性能運算業界年度盛會——2019年超級運算大會(SC19 @Supercomputing)日前於美國丹佛(Denver, USA)盛大召開；然而，如果以全球五百大(Top500)超級電腦排行榜來看，期間並沒有太多重大新聞發佈。

前23大超級電腦排名與去年一樣，並沒有太多變化，而在前幾大的TOP排行榜上較多變化都與一些系統退役有關。不過，更多上線運轉的新系統都搭配了加速器，其中包括42款新系統採用輝達(Nvidia) Tesla GPU。此外，在此真正吸睛的是富士通(Fujitsu)的節能超級電腦在Green500排行榜中奪冠，它不僅能效表現亮眼效，同時還兼具高性能。

20191203_SC19_NT01P1

SC19在美國丹佛會議中心舉行。（來源：SC Photography）

由於在SC19上沒有什麼新的頂級系統發表，更多的討論仍然聚焦於計劃在2021年開始建構百萬兆級(Exascale)運算的大型超級電腦系統。

目前為美國能源部(DOE)打造下一代Exascale超級電腦的最大贏家是AMD、Cray和英特爾(Intel)。AMD為橡樹嶺國家實驗室(ORNL)打造Frontier系統，同時提供CPU和GPU。英特爾則贏得為阿貢國家實驗室(Argonne National Laboratory；ANL)建造Aurora系統的CPU和GPU設計。第三套系統至今尚未完全公開，但已確定由Cray建構該系統。Cray如今是HP Enterprise旗下子公司(2019年5月收購)，負責整合三大Exascale超級電腦設計，並提供其Slingshot高效能可擴充互連技術。

然而，為這些系統(以及Top500的前幾大系統)提供主要元件的兩大供應商——IBM和Nvidia，至今仍未能擠進Exascale新系統之列。目前尚未完成的第三套超級電腦系統稱為El Capitan，這可能是IBM和Nvidia競標成為DOE Exascale專案的最後機會。不過，就算未能拿下El Capitan專案大單，兩家公司在高性能運算(HPC)領域仍有其他許多機會。

英特爾比SC19還搶鏡？

搶在SC19開幕之前，英特爾已經先在SC19所在的丹佛會議中心(Denver Convention Center)附近舉行自家的HPC開發者大會。英特爾此次活動的重頭戲是該公司資深副總裁暨首席架構師兼架構、繪圖晶片與軟體事業群總經理Raja Koduri的演講，率先曝光了為Aurora設計的GPU系統細節。

其CPU和GPU都將採用英特爾尚未投產的下一代7奈米(nm)製程製造。不過，一旦英特爾再度遭遇曾經困擾其10nm製程節點的任何相同問題，很可能就會導致進度膠著。這款下一弋Xeon CPU的代號為Sapphire Rapids。此外，在英特爾活動上最大的亮點是發佈其代號為Ponte Vecchio的Xe HPC GPU——Ponte Vecchio是以義大利佛羅倫斯(Florence, Italy)的老橋命名。

20191203_SC19_NT01P2

英特爾為HPC打造的Ponte Vecchio GPU（來源：Intel）

組成該Ponte Vecchio GPU的晶片是專為HPC工作負載而設計的，結合了不同的向量運算磚。該HPC GPU的主要目標在於處理單精度和雙精度浮點數學運算，但也將用於支援各種普及的人工智慧(AI)資料格式，包括INT8、BFloat16和FP16。

20191203_SC19_NT01P3

每一個Xe晶片都結合了CPU和GPU運算模式。（來源：Intel）

其系統設計將採用英特爾的嵌入式多晶片互連橋接(EMIB)封裝技術，將GPU連接到高頻寬記憶體(HBM)。Ponte Vecchio GPU也將採用英特爾Foveros 3D晶片堆疊技術建構的特殊記憶體介面晶片——Xe Memory Fabric (XEMF)，可支援較大快取——‘Rambo’，從而擴展至處理更大的模型。

Ponte Vecchio將成為英特爾的GPU系列的旗艦版，其多晶片模組由每個模組8顆晶片組成，每個HPC GPU包括2個模組。英特爾將使用其EMIB技術連接Xe運算元素至記憶體，XEMF及其Rambo快取將採用Foveros 3D堆疊技術。此外，英特爾還將會推出連接Xe GPU的新款Xe匯流排介面。

20191203_SC19_NT01P4

Ponte Vecchio使用特殊的快取實現HPC擴展。（來源：Intel）

英特爾正打造一種新的軟體堆疊，以期將其所有的運算晶片整合在一個平台上。用於加速運算的oneAPI平台將全面涵蓋CPU、GPU和FPGA；在SC19發表的初版oneAPI是beta 0.5版本，可存取Intel DevCloud。英特爾還提供了Data Parallel C++ (DPC++)新型編程語言，以Khronos的SYCL語言為基礎，並添加了一些英特爾的專用擴展。英特爾將開放oneAPI和DPC ++語言，並希望其他晶片公司參與並採用該平台。

20191203_SC19_NT01P5

Ponte Vecchio高性能運算模組。（來源：Intel）

Aurora超級電腦的核心將會是由2個Sapphire Rapids Xeon和6個英特爾Ponte Vecchio HPC GPU組成的運算sled。連接該GPU的Xe匯流排採用最新發表的CXL (基於PCIe 5.0)，並搭配新的開關晶片。

對於英特爾來說，Aurora專案是一項重大挑戰。該公司正為此創建新的軟體堆疊，並計劃採用新的半導體製程和新的封裝技術為Aurora打造新的GPU。這些任務都必須在兩年內完成整合，因而將十分著重於英特爾在軟體、製造和設計方面的整體實力。

20191203_SC19_NT01P6

英特爾Raja Koduri、阿貢國家實驗室副總監Rick Stevens。（來源Tirias Research）

就在英特爾發佈其Aurora Exascale級超級電腦平台細節時，AMD也推出了Frontier Exascale超級電腦的軟體開發平台。Frontier系統完全採用AMD的產品，包括搭載了EPYC CPU和Radeon Instinct GPU。AMD的優勢在於已量產獨立的GPU元件，而英特爾開發人員現在還必須使用其Gen 9整合繪圖晶片。AMD回應Nvidia CUDA的開源語言是ROCM (以及一款對應oneAPI的替代方案)，這也是該公司在此的第三項重要發佈。ROCM現可支援Tensor Flow和PyTorch，以實現機器學習(ML)工作負載。但是，ROCM是Frontier開發人員的關鍵軟體平台，Frontier中有大量資金用於ROCM開發。一如往常地，AMD在SC19上也為其EPYC伺服器處理器推廣擴展中的生態系統。

Arm：節能環保至關重要

富士通的超級電腦原型系統採用其自主研發的Arm-based處理器A64fx，兼具出色性能與功效，並榮登今年Green500榜首。它同時也是未採用加速器(如GPU或FPGA)而能躋身前幾大的高性能超級電腦之一。富士通的這套系統中並率先建置了添加可申縮向量擴展(SVE)的Arm核心，因而得以實現強大的浮點運算性能。

20191203_SC19_NT01P7

富士通A64FX HPC處理器。（來源Tirias Research）

Arm的另一件大事是Nvidia將推出採用Arm-based Marvell ThunderX2伺服器主板的參考機器學習系統。Nvidia將為整個Arm生態系統提供全端CUDA工具庫支援。提到CUDA，由於英特爾oneAPI還在beta 0.5版，AMD ROCM是版本3，但Nvidia的CUDA己經發展到10.2版了。這兩大挑戰者顯然都還有很長的路要走，才能達到足以媲美其CUDA生態系統的完整性與成熟度。

微軟(Microsoft)也在SC19上發佈了多項Azure的合作夥伴計劃，例如，與Nvidia聯手提供了「隨選超級電腦」(Supercomputer on demand)。Azure Cloud將在其資料中心中利用Mellanox交換機連接800個Nvidia V100 GPU，並可能為HPC應用設置容器。微軟將其Azure Cloud定位為新的技術平台。

而在SC19之前，Graphcore已經與微軟共同宣佈在Azure Cloud支援Graphcore的AI晶片雲端服務，這對於近來一直相當沉寂的Graphcore來說是一次重大的勝利。

AI新創公司亮相

儘管用於執行HPC工作負載的系統與用於AI訓練的系統之間存在相似之處，但也有著明顯的差異；這也正是專用AI訓練晶片與HPC晶片不同的原因。儘管大多數的AI新創公司多半都不重視這些與HPC系統有關的高性能、雙精度浮點數學運算，但Nvidia的V100則實際將這兩種功能結合在同一塊晶片上。如今，科學家們開始發現搭配AI處理與HPC處理器使用的更多用途，而這也是SC19之所以成為其重要展示展場之故。

晶圓級AI新創公司Cerebras也在大會上展示其CS-1系統；在此之前，該公司發佈其晶圓級晶片——Wafer-Scale Engine (WSE)一度震撼業界。Cerebras由於取得了阿貢國家實驗室和勞倫斯利弗莫爾國家實驗室(Lawrence Livermore National Laboratory；LLNL)的合約，如今正備受業界關注。

20191203_SC19_NT01P8

Cerebras在SC19上展示搭載其晶圓級晶片的CS-1 AI電腦。（來源Tirias Research）

除了Cerebras，其他AI新創公司也在SC19亮相，包括Cerebras、Graphcore、Groq和SambaNova等公司。SambaNova藉此機會發表其首款晶片，並披露其針對AI的軟體定義硬體途徑相關細節。該公司的可重配置資料流單元(RDU)使用7nm製程，以及一系列混合運算、記憶體、定址產生與合併結果的單元組成。Groq則稱其以軟體定義的硬體平台結合了記憶體和運算單元，能夠在一個晶片中執行1 PetaOp的運算效能。Groq的首款晶片採用14nm製程技術製造。

對於英特爾和AI新創公司來說，今年的超級運算大會無疑是一個重大的機會，但是業界對於2021年的Exascale級超級電腦系統更充滿了期待。隨著明年可望看到更多的Arm設計方案，預計在節能處理方面會有更多的創新。

編譯：Susan Hong

(參考原文：The Race to Exascale at Supercomputer 2019，by Kevin Krewell)