来自趣事 2021-04-13 17:59 的文章

NVIDIA推出了一款基于Arm的数据中心CPU

　　去年NVIDIA重磅发布旗舰A100 GPU以及一系列服务器、集群、超算，轰动整个人工智能领域，如今，老黄带着一系列软硬件新品高调回归。

　　万万没想到，这一次，全球GPU霸主NVIDIA推出了一款基于Arm的数据中心CPU！

　　在宣布400亿美元收购Arm的6个月后，NVIDIA连发三款基于Arm IP打造的处理器，包括全球首款专为TB级加速计算而设计的CPU NVIDIA Grace、全新BlueField-3 DPU，以及业界首款1000TOPS算力的自动驾驶汽车SoC。

　　“我们每年都会发布激动人心的新品。三类芯片，逐年飞跃，一个架构。”黄仁勋说，数据中心路线图包括CPU、GPU和DPU这三类芯片，而Grace和BlueField是其中必不可少的关键组成部分。每个芯片架构历经两年的打磨周期（周期内可能出现转变），一年专注于x86平台，另一年专注于 Arm 平台。

　　此外，NVIDIA还公布了与亚马逊AWS、Ampere Computing、联发科和Marvell等基于Arm的CPU平台的合作伙伴关系。

　　在软件方面，超大规模语言模型训练与推理问答引擎Megatron、实时对话式AI平台Jarvis、AI网络安全框架Morpheus、Omniverse企业版、由GPU加速的量子电路模拟框架CuQuantum等一系列最新进展首次揭晓。

　　显然，面向数据中心异构计算的新天地，NVIDIA正集合软硬件技术优势，打出高调的组合拳。

　　3款自研Arm芯：首颗数据中心CPU落地全球最快AI超算

　　此次发布会令人最印象深刻的，就是NVIDIA在助推Arm生态方面不遗余力，从自研CPU、DPU、自动驾驶处理器到GPU的合作伙伴，从云、高性能计算、边缘计算到PC，无处不Arm。

　　先来看下这次发布的五款硬件新品：

　　1、首颗数据中心CPU：落地全球最快AI超算

　　黄仁勋宣布的第一个重磅新品，是一款专为大规模人工智能和高性能计算应用而设计的CPU——NVIDIA Grace。

　　绝大多数的数据中心仍将继续使用现有的CPU，而Grace主要将用于计算领域的细分市场，预计将于2023年可供货。

　　由于超大规模的模型很难完全放进GPU内存，如果存储在系统内存，访问速度则会大大受限，这款CPU的问世主要即是为了解决这一瓶颈。

　　NVIDIA Grace以发明了世界上第一个编译器、被称为“计算机软件工程第一夫人”的先驱计算机科学家Grace Hopper命名，具体有3点创新进步：

　　（1）内置下一代Arm Neoverse内核，每个CPU能在SPECrate2017_int_base基准测试中分数超过300分；

　　（2）采用第四代NVIDIA NVLink，从CPU到GPU连接速度超过900GB/s，达到相当于目前服务器14倍的带宽；从CPU到CPU的速度超过600GB/s。

　　（3）拥有最高的内存带宽，采用的新内存LPDDR5x技术，带宽是LPDDR4的两倍，能源效率提高了10倍，能提供更多计算能力。

　　明年将有两台性能强大的AI超级计算机面世，都将采用NVIDIA Grace，据称其与NVIDIA GPU紧密结合，性能将比目前最先进的NVIDIA DGX系统（在x86 CPU上运行）高出10倍。

　　这两台AI超算中，瑞士国家计算中心（CSCS）正在打造一个算力可达20Exaflops的系统，美国洛斯阿拉莫斯国家实验室（Los Alamos National Laboratory）也将为其研究人员配备新AI超算。

　　2、Bluefield-3 DPU：220亿晶体管

　　在黄仁勋看来，负责在数据中心传输和处理数据的数据处理单元（DPU），正与CPU、GPU共同组成“未来计算的三大支柱”。

　　NVIDIA全新BlueField-3 DPU包含220亿个晶体管，采用16个Arm A78 CPU核心、18M IOPs弹性块存储，加密速度是上一代的4倍，并完全向下兼容BlueField-2。

　　BlueField-2能够卸载相当于30个CPU核的工作负载，而BlueField-3实现了10倍的加速计算性能提升，能够替代300个CPU核，以400Gbps的速率，对网络流量进行保护、卸载和加速。该处理器也是首款支持第五代PCIe总线并提供数据中心时间同步加速的DPU。

　　BlueField-3通过NVIDIA DOCA（集数据中心于芯片的架构）软件开发包为开发者提供一个完整、开放的软件平台，开发在BlueField DPU上开发软件定义和硬件加速的网络、存储、安全和管理等应用。DOCA已于今日发布并提供下载。

　　新一代BlueField-3 DPU预计将于2022年第一季度发布样品，第四代BlueFieldDPU将包含640个晶体管，算力达1000TOPS，网络速率达800Gbps。

　　3、车轮上的数据中心：业界率先达成1000TOPS

　　NVIDIA DRIVE Atlan是新一代AI自动驾驶汽车处理器，算力将达到1000TOPS，约是上一代Orin处理器的4倍，超过了大多数L5无人驾驶出租车的总计算能力。

　　这是DRIVE平台首次集成DPU，通过Arm核为自动驾驶汽车带来数据中心级的网络，致力于应用到2025年的车型。

　　该SoC采用下一代GPU的体系结构、新型Arm CPU内核、新深度学习和计算机视觉加速器，并内置为先进的网络、存储和安全服务的BlueField DPU，网络速度可达400Gbps。

　　黄仁勋夸赞说：“Atlan集NVIDIA在AI、汽车、机器人、安全和BlueField安全数据中心领域的所有技术之大成，堪称一项技术奇迹。”

　　4、便捷式AI数据中心和DGX SuperPod双升级

　　黄仁勋还宣布升级NVIDIA专为工作组打造的“便携式AI数据中心”NVIDIADGX Station，以及NVIDIA专为密集型AI研发打造的AI数据中心产品NVIDIA DGX SuperPod。

　　全新DGX Station 320G借助320GB超快速HBM2e连接至4个NVIDIA A100 GPU，内存带宽达到每秒8TB。然而，仅需将其插入普通的壁装电源插座即可使用，耗电量只有1500W。

　　黄仁勋说，达到这种性能的CPU集群成本约为100万美元，而DGX Station仅需14.9万美元。

　　DGX SuperPOD使用全新80GB NVIDIA A100，将其HBM2e内存提升至90TB，实现2.2EB/s的总带宽。要实现如此的带宽，需要11000台CPU服务器，大约相当于有250个机柜的数据中心，比SuperPOD多15倍。

　　目前它已经升级至采用NVIDIA BlueField-2，且NVIDIA如今还为该产品提供配套的NVIDIA Base Command DGX管理和编排工具。

　　5、Aerial A100：5G+AI的新型边缘计算平台

　　黄仁勋还提到了NVIDIA的AI-on-5G计算平台，这是一款专为边缘设计、将5G和AI相结合的新型计算平台。该平台将采用NVIDIA Aerial软件开发套件与NVIDIA BlueField-2 A100，将GPU和CPU组合成“有史以来最先进的PCIE卡。”

　　富士通、谷歌云、Mavenir、Radisys和Wind River等合作伙伴都在开发适用于NVIDIA AI-on-5G平台的解决方案。

　　协作亚马逊自研CPU支持云服务，打造Arm+GPU新PC

　　除了推出基于Arm的CPU外，NVIDIA还宣布一系列与Arm处理器设计商的合作进展，包括将为亚马逊AWSGraviton2 CPU提供GPU加速、为科学和AI应用开发提供支持的全新HPC开发者套件、提升边缘视频分析和安全功能、打造新一类基于Arm并搭载NVIDIA RTX GPU的新款PC等。

　　这些举动反映出无论是市场还是NVIDIA自身，对基于Arm的解决方案的兴趣已经超出移动领域。