“那一波AI海潮我们是比力受益的,本年AI方面营收会比去年增长三四倍。因为不管做什么你总需要东西,我们是卖东西的,我们是卖交通东西的。你做生意,拉货,载客,送外卖,总得需要车。”海潮集团人工智能与高性能产物部总司理刘军说。
刘军曾荣获国度科技前进二等奖,他于2006年参加海潮, 目前负责海潮的人工智能和高性能计算营业。历经10年,海潮高性能计算营业从0到1做到行业领头羊。
海潮集团成立于1945年,旗下有三家上市公司:海潮信息、海潮软件和海潮国际,详细如下:
海潮旗下三家公司介绍(注:市值查询自百度股市通)
海潮2017新财年颁布发表成立人工智能部分,并出力打造多样化的硬件平台、办理调度与阐发平台和深度进修框架的“平台组合”,实现前端承接多源数据、后端支持智能应用,为人工智能供给领先计算力。
目前,海潮已经是百度、阿里和腾讯的AI计算GPU办事器的最次要供给商,并与科大讯飞、奇虎360、搜狗、今日头条、Face++等人工智能公司深切合做,帮忙客户在语音、图像、视频、搜刮、收集等方面获得数量级的应用性能提拔。
本年已经有较大规模的AI生意
海潮是一家拥有73年汗青的老牌企业。东方红卫星上面用的大电子管就是出自海潮。80年代,海潮起头做小我电脑,但后来联想、朴直以及国外品牌大规模起来,PC机酿成一个完全大规模工业造造的合作,招致那个范畴的盈利空间急剧缩小。
2000年,海潮把重心转移到做小型机、办事器上,那时正值互联网发作,海潮在办事器营业获得快速增长。比来几年,在云计算的鞭策下,海潮做为“根底设备的供给商”,业绩生长也十分快。本年6月,IDC发布了最新的X86办事器市场查询拜访陈述,2017年一季度中国X86出货量到达49.3万台,销售额为18亿美圆,此中销售额排名第一的是海潮3.6亿美圆,其次是华为3.5亿美圆和戴尔3.0亿美圆。
现在,汗青的车轮驶入AI时代。我们晓得,AI有三大体素:计算力、算法和大数据,此中计算力需要大量的办事器和GPU。刘军说:“我们就是把语音识别、图象识别、搜刮、收集平安那些从本来CPU上面搬到GPU上面来做加速,就是在做如许的工做。”
构建大规模的AI系统需要的办事器成本很高,很少创业公司能付得起那个钱,像BAT那些大公司就成为海潮办事器的核心买双方。
“BAT那几家里面超越80%的AI计算设备都是海潮的。AI到底给那些做AI应用的公司带来多大的生意,那个我们可能不晓得,但是那个确实给海潮本年已经带来较大规模的生意”, 刘军说,“当然目前看起来AI创业公司在AI计算方面的采购量相对较少,可能连BAT的零头都够不上。”
那背后,其实是办事器自己的演变,带动了需求的剧增。
之前的办事器都是单台,每一台要什么样的CPU、内存、硬盘,然后根据那个型号组拆,计量是按台计算。而现在互联网云数据中心对办事器的需求演化到以整机柜的形式,一个机柜有 32个计算节点,每个节点上面有两颗处置器和几十GB内存。
素质上,是互联网带来根底设备的庞大变革。目前云计算逐步成为公用设备,本来个别化的计算设备,酿成像电厂如许的根底设备,一个整拆设备来供给。
刘军说,过去computer is a server,就是一个计算机就是一个server,是单台的;如今是叫rack is a server,就是一个机柜是一个server;以后是data center is a server,一个数据中心是一个办事器。
海潮AI规划上的四个条理
海潮在AI规划上有四个条理,更底层是硬件根底设备,然后是一个综合性的办理系统,并行框架的扩展,以及端到端的处理计划。
硬件层
目前,海潮已经发布了AGX-2、GX4、SR-AI、F10A等多款产物。
AGX-2:本年5月,海潮联袂NVIDIA在GTC大会期间发布了加速人工智能计算的超高密度办事器AGX-2,也是全球首款在2U空间内高速互联集成8颗更高性能GPU加速器的办事器。
GX4:单台办事器可扩展4台GX4,实现4到16卡的高扩展性,即一个box里可以挂四块卡,可以同时级联 4个box,挂上16块卡。GX4打破了常规AI计算设备的8卡扩展限造,实现了更高的单机计算性能。
SR-AI:海潮与百度结合发布了面向更大规模数据集和深层神经收集的超大规模AI计算平台。是全球首个接纳PCIe Fabric互联架构设想的AI计划,通过PCI-E交换机和I/O BOX两个模块的共同,GPU和CPU物理解耦池化,二者灵敏设置装备摆设,可实现撑持16个GPU的超大扩展性节点,该计划更大撑持64块GPU,峰值处置才能为512TFlops,比一般的AI计划性能进步5-10倍,可撑持千亿样本、万亿参数级此外模子训练。
F10A:传统FPGA开发接纳Verilog、VHDL等硬件描述语言,对开发者要求较高,开发周期也较长,因而在高性能计算应用遭到限造。而接纳OpenCL的F10A操纵软件高级语言和模子编程,开发周期大幅缩短。据海潮供给的数据显示,在F10A上开发GZIP算法,1名工程师接纳OpenCL用时1个月即可独立完成开发,而接纳Verilog则需要耗时3个月才气完成移植。
系统办理层:海潮AIStation, 人工智能深度进修训练集群办理软件
AIstation办理系统可以帮忙客户去办理整个深度进修的功课流,
深度进修模子在训练时往往耗时较长,短则数小时长则数天,以往在训练完成后才意识到模子存在问题,大大消耗了用户的精神和时间。
海潮AIStation能够供给从数据筹办到阐发训练成果的深度进修营业流程,撑持Caffe、TensorFlow、CNTK等多种计算框架和GoogleNet、VGG、ResNet等多种模子,撑持对训练过程实时监控并可视化训练过程,实现了“一键式”摆设深度进修计算情况、快速启动训练使命,实时监控集群的利用情况,可及时发现运行中的问题,进步集群的可靠性。
框架层:Caffe-MPI,全球首个集群并行版的Caffe深度进修计算框架
海潮于2015年发布Caffe-MPI深度进修计算框架,代码已在Github上开源。海潮Caffe-MPI保留了伯克利版本Caffe架构的优良特征,同时又针对高性能计算系统设想使之具备优良的并行扩展性。新版本在4节点16块P40 GPU集群上训练GoogLeNet模子性能较单卡提拔14.2倍,训练ResNet模子性能较单卡提拔15.36倍,扩展效率高达96%。
香港浸会大学褚晓文副传授颁发的框架测试陈述
端到端的处理计划
海潮AI的端到端的处理计划分为5步:
1、针对深度进修海潮供给整体处理计划才能,成立从平台、办理、框架及应用四个条理的处理计划;
2、平台层供给面向人工智能更大定造化的架构设想,接纳GPU、FPGA供给快速训练与推理计算平台;
3、办理层针对复杂的计算情况接纳海潮深度进修办理平台DeepEngine对计算资本停止办理、调度与监控,实现系统的更大化操纵;
4、框架层针对差别的需求以及利用习惯,摆设差别的深度进修框架,如Caffe,Caffe-MPI, TensorFlow, CNTK, mxnet等,实现对图像、视频、语音、天然语言的处置;
5、应用层针对用户现实应用需求,设想深度进修模子与算法,实现GPU、FPGA平台的迁徙与优化。
那一波AI的手艺立异海潮过来时,整个财产现实上并没有做好筹办,目前只要少数的领先的AI科技公司能具备把从全价值链地某个应用场景酿成AI的才能,好比百度、阿里、腾讯具备那种才能。但是还有良多成千上万的行业企业客户,他们没有那个才能,但是他们巴望应用AI,那里面有一个庞大的需求缺口,也是庞大的贸易时机。
刘军说,海潮做AI的逻辑是起首跟每个行业成立一个行业AI的范例,证明那个行业能够实现AI。其次,告诉客户那个行业的应用场景实现AI要分红哪几步走,需要一些什么东西和办法来实现。最初,把那构成一套的办法和东西的组合,教会财产链上的合做伙伴,如系统集成商、软件开发商,他们掌握到那一套办法和东西,可以给更多的行业客户实现AI转型。
深度进修框架大比拼:最担忧谷歌一统江湖
刘军说,深度进修是个算法,但要把它用起来,需要有一套好用的东西。打个例如,框架就是深度进修的“轮子”。
应该说Caffe的呈现引发了深度进修框架的发作,它是一个各人公认比力好的轮子,能够搭载像Alexnet各类收集的模子,用户能够间接拿来用,只需要在上面按照应用调整模子、参数,目前Caffe是在图象识别范畴更受欢迎的框架。之后,深度进修框架如雨后春笋般呈现。
MXNet是目前跑得比力快的框架,它由华人科学家李沐开发,被AWS选做云上的标配。
百度做了PaddlePaddle,整体的设想觉得和Caffe心有灵犀,同时处理了Caffe早期设想傍边的一些问题(好比说default stream)。
Facebook把Caffe的做者挖过去,本年4月发布了Caffe2,但Caffe2跟Caffe没什么关系。
微软的CNTK,可撑持windows那个很有特点,比拟来看其他框架是在Linux上面运行的。
谷歌是那里面的很大的一个玩家,2016年4月,谷歌发布TensorFlow,在短短一年多的时间几乎获得领先的地位。它希望把它的生态建立在TensorFlow上,所以它投入了庞大的人力财力开发TensorFlow,从它内部的版本到开发版本,从单机的版本到多机版本,使其性能不竭优化。并且,谷歌投入了大量的精神在做TensorFlow的推广和应用,它的社区的活泼度如今是更高的。
谷歌还鼓舞良多人在上面做开发,撑持良多新的模子在上面适用,如许就构成一个良性的滚雪球。在TensorFlow上,良多问题你一发问,他人都处理了,你需要的良多模子他人已经做好,间接拿来用就能够。但那背后需要良多的钱支持才气做得到。
比拟之下,百度PaddlePaddle有点吃亏,固然手艺上很好,也撑持多节点并行设想,但是没有太大投入做推广和社区建立。
“其实关于深度进修框架,手艺做出来仅仅是万里长征第一步,尤其像开源那种项目,要花大量的时间去维护它,推广它,那长短常十分重要的,你要去构成你的社区。”刘军说。
他还强调,PaddlePaddle究竟结果是国产的做的最棒的一个框架。深度进修框架关于AI开展有很大的感化,在框架没有呈现之前,人们去做深度进修算法开发很费精神和时间,有了框架之后,算法的开发变得便利起来,那就比如给车拆上了轮子,让它快速的运转起来,因而,框架十分重要。
而如今,谷歌TensorFlow根本朝着垄断标的目的在开展了。那个会带来一个什么成果呢?带来就是说现实上不管做什么AI,最初都酿成了在TensorFlow上面做AI,你的命脉是掌握在他人的手里。
并且,留给框架开发者的时间不多了。如今若是还想在框架开发上面站住脚的话,必然要在那个时间窗口尽快把宣传、推广、社区建立做出来,再不做出来,以如今谷歌的势头,TensorFlow很难挡得住。
本年5月,谷歌正式发布了第二代TPU ,它号称比GPU还要快,谷歌的战略是以后AI跑在TensorFlow上,TensorFlow跑在TPU上。
目前,谷歌是英伟达的第一大GPU客户,英伟达AI计算芯片三分之一是供应了谷歌,可想而知,一旦谷歌不消GPU而改用TPU,是多么可怕的场面。

评论列表