来自 科技 2019-11-13 15:25 的文章

双11背后的技术力量,阿里云神龙治愈云计算阿

关注前沿科技 量子位 边策 发自 凹非寺 
量子位 出品 | 公众号 QbitAI

导语:自计算机诞生以来,计算性能一直是科技产业发展的标尺。过去数十年提升芯片制造工艺、堆叠核数是性能演进的标准路线,摩尔定律约束下性能增长曲线几近完美。

近几年,云计算成为企业获取算力的主要来源,但云带来便利的同时也带来了巨大的性能损耗,鲜为人知的是,一场云计算企业主导的计算革命正在到来。

刚刚结束的天猫双11期间,阿里巴巴集团CTO张建锋向业界释放了一个重磅信号:今年双11核心系统100%上云,而阿里云自研神龙服务器为各个环节提供了最强的算力底座,并成功扛住了54.4万笔/秒的订单创建峰值。

双11背后的技术力量,阿里云神龙治愈云计算阿

△阿里巴巴集团CTO张建锋

更早些时候,坊间传闻国内云计算头号玩家阿里云正在秘密准备新“杀手锏”,推动下一代云计算的技术升级——“阿里平头哥正在研发一款专用SoC芯片,该SoC芯片将用于阿里云神龙服务器(X-Dragon Cloud Server)的核心组件MOC卡。”

9月的杭州云栖大会上,这则消息几乎得到证实,平头哥在研发新芯片板上钉钉,但背后更深层的意义在于已经服役一年多的神龙架构。

双11背后的技术力量,阿里云神龙治愈云计算阿

近几个月,神龙横空出世,频频出现在大众视野并非偶然。

作为2017年诞生的“新物种”,神龙开创了云计算时代的新计算范式,在全球率先攻克了计算资源和性能损耗的 “顽疾”。

云计算性能复兴之路

2007年亚马逊AWS推出EC2云服务被认为是云计算行业的开端,这种用集中分配计算资源的方式给企业带来了极大的便利,如今已被广大企业接受。

但光鲜亮丽的外表之下,其本身也存在诸多自打娘胎里的顽疾。

首先,云计算用户对硬件的需求千差万别,用户并不直接接触云端的硬件,而是通过虚拟机的方式搭建云。在这个过程中,不可能避免的出现性能损失、软件不兼容的问题。

虚拟化会如同黑洞般吸收走一部分机器的性能,云端的弹性能力是牺牲性能和资源来换取的,这是云计算与生俱来的缺点:

例如,一台96核的服务器上运行云服务器,可能需要占用8核32G来抵消虚拟化的开销,留给用户使用的只剩88核和剩余内存,造成了算力的极大浪费。

不仅如此,在同一服务器上的云服务器之间资源调度无法做到完全的隔离,存在资源抢占的情况,因此其性能也不稳定。

双11背后的技术力量,阿里云神龙治愈云计算阿

多种因素交织作用下,云计算的技术瓶颈与行业需求的鸿沟在不断扩大,面对这一历史性难题,整个产业链均束手无策。

尽管云厂商、芯片商、虚拟化厂商都在试图尝试新的方法,例如英特尔等芯片商提供了硬件级别的虚拟化支持,虚拟化技术本身也从Xen演进到了KVM,但由于软件厂商、硬件厂商、系统集成商各层之间依旧是割裂的模式,都未能在根本上解决问题。

2015年,阿里云已经跃升为中国云计算市场份额最高的云服务商。在服务广大中小企业的同时,也开始支撑阿里巴巴集团业务,但在这一规模下,该问题被放大了N倍,例如在双11中,要提供同等规模的性能,可能需要调用过去数倍的服务器,整体服务质量也受到不同程度影响。

这对于任何一家云厂商和云上企业而言,都是无法接受的。

2016年,阿里云将损耗降到了3%,这一数字已经达到当时技术能力的极限,未来可优化空间的极为有限。

但对阿里而言,这只是云上性能复兴之路的开始。

阿里云思变:“治愈”云计算的阿克琉斯之踵

2010年,BAT三位大佬论剑云计算的事情广为人知,也是国内云计算产业的一个标志性节点。

但在阿里内部,还有一场讨论同样值得被铭记。2016年双11技术复盘会上,阿里巴巴集团CTO张建锋(行癫)首次对虚拟化性能损耗难题发出灵魂拷问,明确要把虚拟机性能损耗降到0。

在当时看来,这样的目标就像是在挑战能量守定律,即便在学术界也没有相关研究。但这次始于技术层面的碰撞阴差阳错为云计算产业下一个十年的演进路线定下了基调。

如果延续传统技术路线,即仅针对软件层面做优化,0损耗的目标几乎是天方夜谭。于是大家决定开辟一条全新的路径,提出软硬结合的思路:通过专用芯片来解决虚拟化开销。

事实证明,这一决定无比正确,阿里云技术人描绘的这张蓝图最终演变成了今天的神龙。