来自 行业研究 2020-03-20 12:12 的文章

英伟达的“GPU共享抗疫法”,为什么没能走进中国方案?

如果让全民为自己打工,这种场景你仔细想……你想得美!

要知道,就算平台的信誉有所保证,用户在共享闲置算力时电脑也要持续运行,尤其是使用GPU计算时,会一直会保持在满负载运行状态,耗电量也必然会增大,有的还会占用软件内存导致卡顿,设备的耐久性和寿命也会因此打折扣。

所以除非有足够的理由驱使,比如为了人类命运共同体协力抗击病毒,亦或是给予充分的经济回报,比如挖矿,否则很难调动起大多数人的积极性。

其次,就算是值得托付的项目/平台,也未必能管理好共享资源。

一方面,分布式计算只适合那些能够通过计算来解决全部或部分问题的研究,而且计算过程还需要容易被分割成个人计算机处理能力可接受的大小,这就限制了许多研究采用“共享模式”来进行。

另一方面,项目方/平台方需要管理海量用户的GPU/CPU硬件资源,但商业竞争的关系,GPU的设计细节并未公开,不同厂商产品也存在很大的差异。而且算力上传到云端虚拟化还会产生性能损耗,这都增加了其部署和管理的难度。

这也是为什么,在上线21年后,SETI@Home决定在今年3月31日终止向志愿者分配作业。项目小组解释,是因为已经分析完所有需要的数据,而且数据的分布式计算管理很费事,专案小组决定把精力放在完成数据的后端分析,和撰写论文上面。

第三,能将共享资源效率最  大化的平台,必然具备强大的技术能力,这也限制了共享项目的扩张。

因为对海量个人算力的云端虚拟化、调配,需要部署分布计算环境(也称为中间件),用来提供公共服务,支持分布式应用,否则,项目人员就不得不解决多种操作系统、多种网络协议、多种数据库、性能、效率、安全等等,与业务本身没有直接关系的难题。

比如虚拟化技术,多核CPU和拥有大量核数的GPU出现,让计算机性能得到数量级提高的同时,也加大了共享的部署难度,很容易造成GPU密集型负载的性能混乱和资源浪费,这就需要通过虚拟化来对丰富的计算资源进行抽象和模拟,让算力达到原生GPPU/CPU的性能,同时成千上万个应用相互之间没有任何干扰。

这样功能强大、稳定统一的技术,主要还是掌握在云计算厂商手中。

这或许也从某个层面,解释了中国的AI抗疫动作里,暂时还没有出现“全民共享GPU”这个选项。

方兴未艾,自有担当:中国云计算的今日景况

其一,中国云计算产业规模不断增长,拥有相对充足的算力资源。

在过去的数年间,从国家政策到企业需求,推动了国内云计算产业规模的高速增长。信通院、IDC等研究机构发布的数据显示,2018年,中国云计算产业规模达到962.8亿元人民币,较2017年增长39.2%,2019年产业规模则预计超过千亿,达到1290.7亿元人民币。众多省市都在建设超级计算中心,这为抗疫期间AI算力的紧缺需求,提供了高效战略调动的前提。  

第二,中国云服务厂商市场份额和技术能力趋于世界前列,在疫情危急关头挺身而出开放算力。

IDC《全球公有云服务市场跟踪》报告显示,中国公有云服务整体市场规模(IaaS/PaaS/SaaS)超40亿美金,中国云厂商占据了全球四强席位。

而这些科技企业的加入,也撑起了算力需求的江山。阿里云宣布向全球公共科研机构免费开放一切AI算力,百度研究院免费开放线性时间算法LinearFold以及世界上现有最  快的RNA结构预测网站;滴滴云也免费开放了GPU云计算资源和技术支持,用于抗击疫情相关工作……此外,一些云服务厂商也在积极研发,并无偿开放多款专门针对疫情调研、排查、防控的智能服务产品,比如至少阿里、腾讯、字节跳动、华为等云协同办公厂商先后免费开放多项功能,上海经信委与各运营商商议提供6个月以上云办公、云视频会议的免费服务……

有这么多算力巨无霸撑起了计算资源的硬核输入,自然也就不需要号召全民开机、支持抗疫了。

从这个角度来说,争分夺秒的“GPU抗疫”,既是对与新型冠状病毒赛跑的科研人员的强有力支持,也是一个全球云计算业态的最  佳侧写。