272018-11
解析中科曙光AI布局:不只有AI服务器 还有云服务

发布者: 浏览次数:

  编者按:上周,中科曙光在姑苏实行的英伟达GPU技术大会上推出了簇新XMachine系列AI任事器。时辰,曙光智能盘算技巧总监许涛继承了网易智能等媒体的专访,阐扬了曙光XMachine任职器的特色以及曙光正在AI鸿沟的布局策略。

  中科曙光发力AI供职器规模,比来推出了XMachine系列AI效劳器。据悉,XMachine系列办事器选拔统一硬件平台,两块分歧主板(CPU、GPU),三种差异拓扑,其最大的特点是拔取CPU主板和GPU底板解耦合着想,可听从CPU和GPU的生长各自只身跳级,低重用户改革换代资本。

  其中,X745、X785和X795的产物更多的是面向于陶冶,兼顾推理场景。而X740紧张面向推理端,也许急救四块NVIDIA T4云云的GPU卡。

  以下为曙光智能计算手艺总监许涛对XMachine系列和曙光的发挥(经网易智能操持):

  许涛:厉重有两点原故,一方面是因为现在在深度练习运用场景中,会分为推理和磨练等差别的应用场景,这种分别的应用场景对GPU办事器的条目是不相像的。譬喻,训练情景下它供应用到的是功耗对照高、计划能力对比强的大型的GPU卡,而推理需要像英伟达T4这样的幼卡。于是,分别的需要导致它对前端GPU效劳器的需要也不太沟通,正在如此分歧必要的驱动下,XMachine任事器也许正在同一个平台上满足不同的行使、分别的必要。

  另一方面,英伟达现在出的GPU卡的式子也有所更动,不像从前只有PCI-E接口的,它现正在肆意胀动NVLink这种机合GPU卡的通俗,是以我们遐想这个产物的工夫也供应研讨跟PCI-E接口和NVLink接口的团结。

  基于以上两个层面,他们们着想任职器的时期就虽然理想能正在统一个平台上把这些悉数的需求探求进去。XMachine任事器的主板和GPU板做了分离式假想,两个板可以苦守自己的演化疾度朝前促进。从远期筹办来叙,XMachine系列起码会有两块差异的主板、三块区别的底板、三种区别的结合拓扑,云云外面上算下来我会有18种区别的机型。

  许涛:外面上来谈会有18种分别的搭配惟恐召集,实际出货的时候会给用户提议。正在曙光的团队里,不光有给用户做硬件推荐的,还有统制方案团队,所有人抱负供给给用户的是一个完整的照料计划,从客户利用开拔举荐一个对照合意客户的硬件扶植、拓扑机关。

  问:XMachine系列AI办事器异日何如举办CPU主板和GPU主板的孤独跳班?

  许涛:XMachine系列跳级更多的如故夸大勾结设想和模块化设计,这个场合最显著的便是全班人念做的是同一平台,平台基础上不会再动了。后背这些不同的主板和差别的GPU是大概相互替代的,相互搭配行使的。

  假若从珍爱投资的角度来研究,在人工智能的需求里面对CPU的诉求不是很热烈,那后续CPU大概维持不升级,等新的GPU出来此后,可以直接正在GPU底板上去调换本来的GPU。要是再时辰更长极少来看,等P3E4型的GPU出来今后,我们们能够将底板和GPU系缚,整个的进行切换,而后用户只需要孤立进货一起底板就能够了,放正在历来的服务器内里也或许满足全部人的必要。

  还有一个情景,假如用户开掘所有人的CPU的诉求更剧烈少少,他们们现正在要急切的换CPU,而GPU这块由于资本过于激动,短期内不笑意去换,我只供应孤独买沿路全班人本人的主板,把它换上去就不妨了。

  许涛:以高准备力为需要的产物,现在渐渐的就从古板的办事器独自出来,因为它的设计和守旧的办事器不太相仿。严浸源由是,古板供职器的功耗和散热相对来道对比低,但高算力任职器功耗会非常的高,像我们们现在假想的供职器最高的功耗会到达3200瓦,这依然额定的功率,若是叙是举荐的HGX的下一代产物,给出的参考功率是单排10千瓦。功耗对AI服务器来叙是一个异常大的挑拨。

  因为功耗很大,带来了一个新的问题即是散热压力分外大,大家们要正在想象任事器的时辰就要探求到如何将热量从效劳器来带走,这是AI供职器和古代的供职器最大的不同了,也是最大的离间。

  另外,相比古代供职器,GPU效劳器单机的造价会卓殊高,是以正在清静性、兼容性上条款都更高。

  许涛:我感触剽窃这个事情是没有格式防备的,假如他们想一贯坚持比照发展的架构生怕布局的话,就供给平昔地去演进这个产品。从另表一个角度来叙,一个产物的成熟也是一个再三迭代的历程。XMachine系列任职器异日会有新的版本平素迭代,让它变得越来越适用于用户行使场景,惧怕越来越实用于新技术的生长。正在演进经过中提供大量的测试资源和手艺进入,也会有一定的身手门槛。

  因而,所有人不牵记产物被模仿,若是其他厂商真的模仿了全班人,解说大家引颈了这个商场潮流。

  问:从芯片的角度看若何选取,是采取寒武纪芯片的任职器,已经挑选英伟达芯片的效劳器?

  许涛:原来对通用的用户来说,害怕英伟达的产品更适合全班人,由于他们或者速速的商业化,速速的安插。可是假若用户是少少科研机构可能是对人工智能的技巧有特殊瑰异的必要,畏惧会抉择少许越发特异化的产品,例如寒武纪、FPGA,害怕是极少其谁的硬件产物来做这种人为智能的应用惧怕任事器的选型。

  也便是叙,GPU生怕以GPU为代表的加速器是将来一段时候人为智能特别主要的一个加速单位,不过并不是唯一的。群众能看到的GPU的产物,在未来应该也会境遇竞赛对手,像AMD刚刚公布的MI60。当前,正在AI锻炼端,英伟达阛阓份额最大,但正在推理端,遴选的空间再有很大。用户的遴选越众,这个市场才会越繁荣。

  许涛:国内GPU任职器根基都是从OEM可能ODM厂商走过来的,但而今国外厂商的服务器正在本土化流程中很难适应邦内的须要,好比做定造化只怕与极少大型厂商做应用试验的时辰,就很难做到。

  所有人也开采历程古代的景象做出来的供职器畏惧ODM供职器越来越难满足客户的需求,这时候只可谈走自决研发的路途。曙光推出的这种GPU办事器不是邦内第一家,但他渴望依托本身上风大概做得最好。

  许涛:守旧的服务器虽然可以用于人为智能推理可能陶冶,但是并没有统统为人为智能商场开垦一整套的产品,这就导致这些厂商在AI市场中的产品特殊单一。从客户的角度来看,越发是国内客户诉求越来越多,每个用户必要点都不太相仿。是以曙光更多的照旧研商到资历一系列的GPU服务器,为用户需要整套的选拔,我不妨在差异的运用条款下抉择分歧的产物。

  全班人认为,在将来5年内里人为智能将仍旧一个异常高快的发展,这会对高算力效劳器有特殊强劲的须要,并且跟着这种需求的一直伸长,对办事器的必要必定也会有一些新的条目。曙光这个时间点上推出你们的办事器,梦想在后续的商场延长内部也许主动反映阛阓需要,或者把市集需要改观成产品,能更好地合营阛阓,拉动公司的增加。这是对曙光来谈最大的意旨。

  另外,曙光的GPU服务器的定位并不是仅限于AI领域。曙光最早是做高本能企图的企业,因此除了做AI供职器,还会持续体贴传统高职能打定,以及异构打算边界。

  许涛:入手下手,面向幼微企业,曙光会在云霄睡觉良众的GPU服务器,帮助幼企业把全班人的行使安置到云霄去,面向市场供应这种效劳。我起初的遐想就沟通于孵化器一致,正在来日一段期间,这种特地小型的idea后来做的越来越好,恐怕选拔跟谁互助在“进取打定核心”的云平台上安插开业。

  进步预备平台指望的便是正在明天帮助用户,出格是小型的用户提供打算办事。跟着AI对盘算的强劲必要,提高盘算核心就或许经历运营上的上风,资源复用的优势来助帮这种小型惧怕微型的客户处分我们面对的特别现实的问题。

  对这些企业来讲,无论是当地计划已经云安顿总是提供资源的,全部人可以正在盘算重心内中孤立提供资源,供应运维、处理,或是供应本地化的接济,帮帮谁规划全体计算中间的满堂方案,做卓殊的定制化的云供职。

  未来,曙光也许会在宇宙各地修良多的进取打定主旨,有自营的,也有也许和当地政府或机构合修,为用户提供准备救助和盘算任职。但需要防范的是,曙光不是在做通用云平台,而是在某些特殊的范围也许特别的行业提供专业的云服务。(完)