特稿 >

行业洞察 >

阿里云何万青:搭建首个全球云上超算中心,做超算能力的普惠者

阿里云何万青:搭建首个全球云上超算中心,做超算能力的普惠者

Xtecher原创 丨 行业洞察

20165
2890

2017-09-27

郭宝婷

Xtecher特稿作者

关注

           

阿里云上线了新的异构计算实例和高性能计算平台,引发行业关注。这件事,把以往各国专家争相登顶的高性能计算能力“珠峰”,变成普惠覆盖的“青藏高原”。这个高性能计算平台背后的团队带头人、超算专家何万青,带着十几年超算生涯的积淀,用半年时间闪电开发云端超算中心,他是怎么做到的?


作者、采访|郭宝婷

编辑|小鱼

网址|www.xtecher.com

微信公众号ID|Xtecher


高性能计算能力,又称“超算”,是国家科技竞争力的重要指标。


早在2013年,中国“天河2号”超级计算机荣登全球超级计算机500强榜首,这是继2009年后,中国制造再获此殊荣,意味着中国在全球科技版图中再次巩固了自己的地位。

 

何万青博士,就是这项成就的推动者。从上海交大博士毕业后的近20年间,何万青始终专注于高性能计算能力的推进。他曾担任英特尔高性能计算团队负责人和高级架构师,也是“天河2号”超级计算机英特尔支持团队核心成员之一。

 

2017年2月,何万青加入阿里云,他迎来了个人生涯与高性能计算受众转变的双重节点——过往对超算能力的探究,是各国“攀登珠穆朗玛峰”的比拼,现在,他的团队要做的,是把高性能计算能力变成普惠覆盖“青藏高原”,从而降低技术门槛,人人可以轻松使用。



降低超算使用门槛



曾经,超算在中国可望而不可及。2005年,何万青开始在英特尔组建高性能计算团队,那时中国自己的超算还处于起步阶段,计算能力制高点始终被美国和日本垄断,大部分超算机器也是从国外买的,受到严格监管。业内传说气象局曾有一套IBM的机器,会由国外工作人员在玻璃房子外监视,因为厂家怕自己的机器在中国被用来做核模拟。可见计算能力在国家科技实力中的重要性和敏感程度。

 

2005年左右,国内各大高校研究机构还有超算中心积极自建超算,领衔的有曙光、联想这样的公司。中国逐渐在国际榜单上崭露头角,排名不断提升。到2009年,“天河1A号”首次夺冠。但一年后它的名次就掉下来了,因为国际竞争异常激烈。

 

随后,在中国科学家的努力下,超级计算机“天河2号”连赢了6届冠军,中国逐渐取得了科技领先的地位。

 

超算中心的竞赛,就是计算界的奥运会。奥运会上,各国都在争世界第一。参与了多年计算“奥运会”的何万青发现,连赢很多届“奥运会”后,大家不会再看金牌数,而是会关注到“全民健身”程度。

 

此时,人工智能浪潮催生的计算迭代需求,早已超过摩尔定律。摩尔定律是单个CPU的发展速率,但超算的上升斜线甚至更加陡峭。科幻小说《三体》在2008年描写的世界上最快的计算机进行“五百万亿次浮点运算”,其实在这本书出版的当年就被超越了。超算发展的速度远比人想象的要快,但这个速度主要把握在国家科技科研机构手里,企业和大众享受不到。

 

市场迫切需要的不再是“金牌”,而是计算能力整体的获得和提升。计算能力是人工智能产业大规模的爆发的原动力,有了高性能计算能力,深度学习成本将缩减一半,大幅降低人工智能计算门槛。

 

而现实却是,高性能计算能力由超算中心和大型科研中心把握,企业、公众与计算能力应用之间有巨大断层。

 

排队难。超算中心没办法提供随时随地的服务,企业要通过一定的手续才能使用到超算中心的计算能力。其次,规模不能伸缩,企业无法保证取得自己所需规模的计算能力。以及,高性能计算软件收费贵,基本是按核数和使用时间来算,一旦时间把控不好,就会出现一次性付了一大笔钱却用不完,或是超了时限不够用的情况。

 

直到2016年,计算能力发展已经成熟,人工智能引爆超算需求,是时候把过往追求金牌的力量用在提高“全民健身”上了。将高性能计算普及给大众,何万青确定,“这就是我未来要做的事”。



“上云”,从珠峰到高原的普惠覆盖



“阿里的愿景,是给更多中小企业普惠互联网能力,让他更好地做生意、把东西卖出去。现在超算也到了这个阶段,计算能力可以产生更好的设计、生产和创新。阿里云飞天研发负责人李津曾打了个比方,我们不做珠穆朗玛峰、不做奥运会了,我们去做一个青藏高原。这句话我特别特别认同。珠穆朗玛峰海拔8848米,但在青藏高原生活的人来看,也就是四千多米,因为青藏高原本身就平均海拔超过四千米了。你知道,在中国超过四千米的高峰有32座。”

 

何万青现在要做这件降门槛的事,他看到,市场的需求很大,而阿里巴巴集团除了有过硬的技术支撑以外,一贯有技术普惠的情怀。

 

把以往是“珠峰”的高性能计算能力变成“高原”,怎么做?答案只有一个,上云。

 

“把高性能计算能力做到云端,虚拟化、去硬件化,这样才能让人随时随地随需取用,解决以往排队难、规模不可控、花费高的痛点。”

 

但对高性能计算“上云”这件事,做这行的技术专家一开始不太接受。 “超算这个领域的人,都有对性能的极致追求”,而超算一旦虚拟化,性能一般会有损失。以往做高性能计算,技术人员都轻车熟路,因为只要在物理机群上搭建即可,以现在的技术水平来说毫无难度,但上云完全是另外一回事。

 

“我们以前做了十多年,作为厂商,不管是戴尔、惠普、IBM、英特尔,做高性能计算大家已经熟门熟路。云平台是为分布式计算发明的,但超算是并行计算,是集中使用机器,云端是分散使用机器,所以这个过程中有适配的问题,要重新设计。”

 

“上云”不仅仅是计算能力虚拟化的纯技术问题,还要充分考虑到怎样从阿里的飞天平台上“长出来”,打造成一个基于已有云端平台的产品,而不是反向地做一个产品来迎合平台。

 

阿里云八年的虚拟化技术和产品积累,以及不断的创新,保证了用户不用担心上云的性能损失。阿里云陆续完成了计算、网络、存储三辆马车的升级,性能提升幅度非常大,加上成熟的“飞天”技术,何万青相信,阿里云完全可以承担起高性能计算“上云”这件事,并提供一个不断进化,“充满升级活力”的计算平台。

 

互联网公司快节奏的作风,也让何万青在大呼“在互联网公司就是太忙了”的同时,倍感高效和充实。 

 

2017年2月正式加入阿里云后,何万青和他的团队加班加点拼了半年时间,2017年9月,阿里云的弹性高性能计算平台E-HPC邀测版上线。

 

9月12日,阿里云在北京正式亮相了异构计算家族,推出一系列满足人工智能、高性能计算需求的计算实例。作为其中一员,E-HPC面向对传统对高性能计算有强烈需求的高校科研机构和企业用户,也是中国首个公共云上的HPC as a Service产品。

 

E-HPC建立在阿里云强大的的GPU和CPU基础架构之上, 提供了和阿里云产品无缝结合的高性能计算全部软件栈。

 

“如果把传统超算中心比作‘珠穆朗玛峰’,那么阿里云的E-HPC则是将高性能计算做更普惠的覆盖,成为高性能计算的‘青藏高原’。”平台的上线,何万青感到非常欣慰。“我们可以干大事,就是这种感觉”。



对标集群环境的普惠高性能计算



在人工智能领域,新一代的异构加速计算平台可将深度学习成本缩减一半,大幅降低人工智能计算门槛;而基于阿里云异构平台的全新高性能计算实例E-HPC,可一键部署获得媲美大型超算集群环境的“云上超算中心”。

 

高性能计算上云,亚马逊和微软也尝试做相似的事,比如亚马逊的AWS在国内也有一些人在用。另外,传统的超算中心也在试图出售多余的计算能力。

 

与竞品相比,阿里云高性能计算平台的优势在哪里?

 

阿里云胜在门槛低、体感好、PaaS平台完备、自动化水平高。“阿里云的平台可以全自动生成机群,连接多个节点,便捷度和弹性上都更具优势。”

 

阿里云异构计算平台的盈利空间和市场又在哪里?

 

何万青说,“创业公司是一定会用云资源而不是自建数据中心的”,这是因为,相比把资金和精力花在硬件和机房上,创业公司更核心的精力会花费在商业和产品创新上。高性能计算上云后,按时、按需收费的方式,将轻便地解决企业以往计算难的问题。

 

同时,在阿里云ECS和异构计算基础架构上的PaaS和SaaS是阿里云超算平台的亮点,也是云端超算平台的盈利点。

 

比如汽车公司需要渲染模型,想用程序跑一下看看设计得好不好,但汽车工程师并不是计算机高手,这时就会用到云上超算服务,按需取用,用户的花费比过去更低,更不需要外包或购置机器和搭建管理机房。

 

“用户要的是一个生产流程,其实就是工艺,现在国内外有很多第三方服务商做,他们把软件跟用户的生产的过程结合起来这种外包的方式。用户现在用我们的平台跑,我们按照时间收费,不用再像以往一样外包给别人。”

 

如何不断提升用户的体验度?

 

“提供的弹性、完善的开发环境,可以让用户以较低成本、最大的灵活度在云端快速搭建完整的超算集群和硬件加速服务,真正做到将高性能计算能力普惠到大众。”



高性能计算普及是未来的方向



阿里之所以专注高性能计算这一块,是因为“看到了未来的方向”。

 

 “将来要让人们像使用水和电一样来使用云的计算资源。我在咖啡厅,就可以跑一个科学假想的数值模拟,只用八、九个计算节点,就能把分子动力学模拟了。高性能计算上云这件事情很不容易,但我们确信它是未来的方向。阿里看的是未来十年,做的是对未来有巨大价值的事情,而人们一定会为价值买单。”

 

机器不是阿里的市场,硬件也不是阿里的市场。阿里想做的,是改变生产方式。

 

“阿里云的虚拟化技术和弹性能力已经非常先进,以此为基础,我们可以提供一种颠覆性的生产方式、生产资料。”这就好比微软的office365网站,微软把办公套件上云以后,大家不用再买office套装,而是按需付费,使用的素材和模板也在云端共享,同时还杜绝了盗版问题,提高了软件厂商开发的积极性。比起传统卖办公软件的方式,这就是一种颠覆。

 

“未来的并行计算、高性能计算有很大的市场,目前市面上的服务是不够的,用户才有这些痛点。”

 

何万青回顾自己的超算的职业生涯,是一个从“专业”到“普惠”的转变,加入阿里云是个转折点。

 

第一个阶段是专业,国内超算领域的专家、大牛每年会得到国家的拨款买机器,推进超算技术。第二个阶段就是普惠,将原本属于科学家、教授、研究中心的资源,普惠给需要创新的企业和大众。“今天高性能计算和你我的生活息息相关——石油勘探,天气预报,基因制药,汽车设计,航空航天,金融期货,数字电影和人工智能等都离不开高性能计算,科学研究,教育科研在大量使用高性能计算,高性能计算上云,将直面这十几年来摩尔定律多核带来的并行计算挑战,让中国大量中小企业和科研教育界,能够获得触手可及的超算让创新能力升级。”

 

十几年的努力中,何万青有两个充满成就感的时刻:第一次,是“天河2号”夺冠时,有种“一个人和一个大项目绑在一起”的成就感。第二次,是他在阿里云带领新团队把高性能计算能力上云了,做了一个用户体感好的平台出来,收获的不再是像获得世界第一时的光荣自豪感,而是一种沉淀下来的自信心。

 

“我有这个视野,相信这件事一定能做出来。过程中肯定有很多坑,但只要有明确的方向,就像马云老师说的那样,相信就一定能看见。坚信自己做的事情的价值,而且很清楚它的价值所在,自然就不会被别的东西动摇。”

 

何万青相信,阿里云的普惠精神将带领自己对超算的极致追求走得更远,更能带领大中小企业及需要超算的普通人,走得更远。



如果您有国内外科技行业新鲜资讯或独到见解,欢迎与Xtecher联系

微信:littlefish_forever

邮箱:xiru.duan@xtecher.com

打开微信“扫一扫”,打开网页后点击屏幕右上角分享按钮

账号登录

重置密码

还没有账号?立即注册>

账号注册

已有账号?立即登录>注册企业会员

重置密码

返回

绑定手机