2015/7/13 下午12:06:19 星期一
当前位置: 主页 > 厉兵秣马 >

访中科曙光智能计算技术总监许涛:重新认识面向未来的AI服务器和云计算中心
时间:2019-05-31 12:57

访中科曙光智能计算技术总监许涛:重新认识面向未来的AI服务器和云计算中心

时间:11-26 18:20 阅读:5053次 转载来源:雷锋网

雷锋网消息,2018年11月20日,NVIDIA在苏州召开了GTC China 2018大会。与会者对这场技术大会的期待不仅在于NVIDIA本身,对于其产品和技术在国内的具体应用也倍加关注。

在本次大会上,国内高性能计算领军企业中科曙光推出了全新的XMachine系列AI服务器,基于Intel Skylake CPU,最多可通过NVLink支持8块NVIDIA GPU、10卡训练GPU、20卡推理加速卡。底板采用CPU主板和GPU解耦合设计,可根据CPU和GPU的发展各自独立升级,降低用户更新换代成本。

发布会后,雷锋网(公众号:雷锋网)与中科曙光智能计算技术总监许涛进行了深入的交流对话,获悉中科曙光在产品和市场上的一些思考。

重新认识高性能AI服务器

对于大多数人来说,高性能计算(HPC)产品和传统的服务器似乎没什么区别,都象征着“专业级”、“企业级”等高大上的定位。不过在谈话中我们了解到,以高算力为需求的产品,已经从传统服务器中独立出来了,其设计方式和传统服务器有很大不同。

访中科曙光智能计算技术总监许涛:重新认识面向未来的AI服务器和云计算中心

许涛向雷锋网介绍,二者首要的区别在于传统服务器的功耗密度相对较低,而AI服务器等高性能计算产品的功耗非常高,目前发售的AI服务器额定功率已达到3200瓦,下一代HGX产品给出的参考功率更是高达单台10千瓦,远远超过传统机架式和刀片式服务器。而功耗高也带来了发热量大的新挑战,这是AI服务器和传统的服务器最大的区别。

设计AI服务器时,供电和散热是需要重点考虑的问题,相应的对兼容性和稳定性的要求也都不太一样。在GPU加速卡刚出现的时候,单卡功耗不超过250瓦,而现在已经达到300瓦,按照目前的趋势,加速卡功耗还会随着时间推移变得更高,当单块加速卡功耗达到350瓦以上的时候,传统的服务器结构就很难满足了。

“在这么高的压力下,单个机柜里能摆放的服务器数量是非常有限的。”许涛给我们算了笔账,“3200瓦的AI服务器,一般的电信机房单柜只能放2台,即便是20千瓦容量的高端水冷机房也只能放6台。综合考虑实际部署情况之后,我们发现4U是非常合理的AI服务器尺寸。XMachine的GPU仓高度为3U,不仅散热空间大,也为未来的维护预留了很大的空间。”

而对于个人工作站,中科曙光在最新的W560-G30产品上也采用了改进设计的3段式散热方案:

GPU区域:RTX6000显卡功耗达300瓦,拥有专门的散热空间,并且使用IPMI功能精准读取显卡状态状况并管理显卡功耗和风扇散热,控制相应的风扇风量,在保证显卡散热的同时将办公环境下的噪音压缩至最低,最高可支持2块显卡全速运转。

CPU区域:支持2颗共56个物理核心的至强铂金CPU,每颗CPU的功耗达205瓦;2颗CPU风道互相隔离,每颗CPU均有独立进风,保证CPU在高功耗下稳定工作,并可支撑进一步的超频空间。

电源区域:使用可7*24小时稳定提供1250瓦供电能力的铂金电源,并设计有电源的独立风道;时在放置于数据中心使用时,可支持冗余电源和基于BMC的远程管理功能,变身成为高性能GPU服务器。

访中科曙光智能计算技术总监许涛:重新认识面向未来的AI服务器和云计算中心

灵活应对百花齐放的推理端市场

随着异构计算越来越流行,现在HPC Top 500里排名靠前的超高算力服务器基本上都用到了GPU加速卡或者其他加速部件。据雷锋网了解,目前NVIDIA已经基本垄断了AI计算的训练端市场,但在与用户应用贴合特别紧密的推理端,由于需要进行具体的应用部署,GPU作为一种通用计算单元的优势就会被削弱。

NVIDIA虽然面向推理端市场发布了T4计算卡,但是像Intel、赛灵思和寒武纪等公司,依然在积极开拓这一领域。根据介绍,XMachine系列AI服务器在设计上可以兼容多种加速器产品,这些芯片在市场中是互补的,中科曙光未来会针对不同应用场合推出使用不同加速芯片的服务器,就看终端用户的诉求是什么。

“在文字处理或信息导流等业务中,传统CPU的运算效率也很好;如果是需要捕捉黄金窗口期的商业化公司,那么NVIDIA T4这样的GPU加速产品可以让公司迅速上线项目。” 许涛为我们详细分析着几种不同的情况,“而对那些拥有特殊业务需求的定制化客户来说,他们需要经常迅速改换业务逻辑,这种情况下显然FPGA更适合。”