阿里云李津:云计算需要把关整个链路

阿里云 厦门云栖大会 上,阿里分享了云构架、企业级互联网架构和云计算大数据创新的经验,并获得了新加坡多层云安全MTCS最高安全评级T3认证。会后,InfoQ就技术问题对阿里云资深总监李津进行了采访。

受访嘉宾介绍

李津,阿里云资深总监,全面负责阿里云飞天事业部产品技术研发。

InfoQ:负载均衡一直被视为是云计算的重点,阿里早先分享过 4层和7层负载均衡的技术 。请问现在的负载均衡是怎样的?

李津:负载均衡SLB(Server Load Balance)在4层和7层都有的,不过使用时可以选择性关闭,这个取决于用户自己的需求。4层主要是在做网络层的分发,而7层是在应用层的分发。阿里过去早先采用的是一个厂商F5提供的SLB;后来是正明老师(章文嵩博士)开源的LVS,这个LVS的理念和体系被保留下至今。不过今天的这个LVS已经进化到了三四代,代码、硬件和软件形态已经完全不一样了。

InfoQ:同一个手机端发出请求的会话保持,一般情况下是怎样处理的?如果某台服务器坏掉了呢?服务器坏掉了之后的工作是怎样的?

李津:一个手机所对应的服务端,应该是有多台服务器。如果只有一台,这个请求是一定会落到它上面的,并且是保持的。对于多台的情况,如果会话的性能已经下降了,机器已经负载偏高,那么这时就会调控。我们是基于服务质量去做调控的。

如果服务器坏掉了,用户端的session会被保持,然后再重新分配到一台新的机器。服务器坏掉之后,我们内部的处理是全部自动化的。人所需要做的就是定规则和写代码,在之后的使用过程中是没有人工介入的。

InfoQ:在域名解析环节,与传统相比做了哪些优化呢?

李津:阿里云自己研发了一个公共的DNS服务。这个公共的DNS服务,是因为普通用户使用移动运营商DNS服务的一个补充。因为我们希望用户是可以:一简单地选择;二有更多的选择;三要保证用户在DNS解析时,一定要解析到对的。DNS劫持现在还是蛮多的,我们期待保护用户在信息链路的信息安全和隐私保护。

InfoQ:在数据化实时处理这里,对于数据选择性落地时怎样做的?

李津:任何数据引擎都要做到有效数据的保存,中间态的数据(除非用户有特殊需求),最后存的只有结果数据和原始数据。这一点,不论是什么计算平台都是一样的,这样做是为了进行二次校验。

InfoQ:金融的数据处理有什么特别的地方吗?

李津:不论是哪个行业的客户,所有数据的保存、所有的数据幂等和验证这三项工作都是必须要做的。所有的用户在数据的基本实现上都是一样的。

金融的数据保存和普通的数据保存确实是不太一样的。技术方案是具有相似性的,但技术投入是不一样的,数据保护也是完全不一样的:因而提供可靠性的指标也确实是不一样的。但并不是所有的数据工作都是云计算厂商在做的,数据库的使用者,他自己也要做很多事情。

InfoQ:能谈谈阿里对于容器技术的看法吗?

李津:Docker的使用过程要比理解这个概念困难得多。我们在之前的会议上也提到过这些问题,Docker并不是说今天你把它装上,明天你就能去用了。今天对Docker的使用还是在一些大的互联网的公司中去用,因为对一些普通的用户来说使用Docker其实是有一些门槛的。而让Docker变得易用,是我们的一个诉求。

第二个,是说让Docker和其他的云产品打通,这是阿里和Docker一块去做的。所以你能看到今天Docker已经支持我们的OSS的产品、弹性计算的产品。这样你使用了Docker,你就可以提前去使用我们的产品了;否则话还得去做中间层,这是Docker对我们的支持。

第三个,今天的Docker编排是一个单独的服务,是让你快速部署去用的,最大的价值是让你的运维变得简单。让运维变得简单,实际上是个服务的编排。

有一个比喻:Docker就像发明了锤子,因此就要一群人发明钉子。Docker概念火,可普及性不高;但是一旦做过去,接下来的事情会变得简单。

InfoQ:阿里现在挑战语音识别和图像识别,包括以后可能会有视频分析识别,这些业务会不会对数据的存储与结构、系统构架带来很大的变化呢?

李津:数据存储这里不会再发生变化了,这里的问题我们已经早就解决掉了。

计算这边会发生变化。计算模型决定了消耗,主要需要解决的是计算能力的问题,包括硬件、CPU算法、FPGA算法。这需要结合新的硬件体系、新的计算模型和算法模型。我们期待在年内就推出相关的产品,最终音频和视频一定全部解决掉。

InfoQ:能否简要解释下“阿里可以在几分钟内启动4万核计算”?

李津:我们现在的标准说法是,十分钟一万台。十分钟一万台服务器,就是一个集群交互的概念。

当需要用大规模资源的时候,是去整集交互的。这里面的工作涉及到:对硬件的调动、对硬件资源的拟合能力;拟合后对资源的再分配再增添、分发、数据传输、启动、对虚拟化底层的优化;然后对整个镜像的分发部署,启动后再去检测是否所有应用都正常启动。这里面全部都要去做一个完整链路,这是一个很麻烦的一件事情。

InfoQ:与AWS相比,云安全可以说是阿里的强项。在去年修复Xen漏洞时表现不凡,能分享下阿里的心得和经验吗?

李津:安全是阿里系诞生的那一天起就有的,是骨子里面的。AWS说他们的军规是安全,这在我们看来是后加的:在这点我们两家是完全不一样的。去年几个重大的漏斗修复,我们都是不需要重启服务器的,而AWS就需要重启:这在技术等级上是一个很大的差距。我们技术好,可以热升级打补丁,用户体验不受修复影响。

其次,我们也主动上报过一些漏洞。这意味黑客在真正攻击你之前,你就有能力去把它解决掉。对于我们来说,建立这个时间差的能力是很重要,也是我们最大的诉求。因为漏洞是不可穷举的,提前发现和提前解决是我们需要做的事情。

研发方面,我们在是分红蓝两军,也有专门的团队在查安全漏洞。在具体使用阶段,用户的开始操作是在沙箱中的;同时阿里有一个自己的安全体系,会在第一时间发现并报警不安全因素。

InfoQ:很欣慰地看到,某些方面我们中国的技术可以领先于外国。

李津:我们在过去的一年里面,做了十几场的海外的论坛主持发言。我们Xen漏洞、计算调度方面的发言都是安排在核心的场次中,并且都是很热门的。基本上现在国外和云计算相关的大会上,阿里是比较靠前的。

在你第一眼看到别人的技术远远超越你的时候,悲观甚至放弃是太正常的事情,就有人这样做。但事实上,中国能今天走到现在,包括中国白色家电、华为、现在新的阿里系等这些公司的出现,是因为有一批人他们坚信能够走下去。中国人是执着勤劳勇敢的:只要有时间,只要能够踏踏实实地去做事情,我们是会超越的。但唯一的问题是,当有一天你真的超越的时候,当你站在最前面的时候,再怎么走是需要更大的智慧的。

感谢郭蕾对本文的审校。

给InfoQ中文站投稿或者参与内容翻译工作,请邮件至editors@cn.infoq.com。也欢迎大家通过新浪微博(@InfoQ,@丁晓昀),微信(微信号: InfoQChina )关注我们。

文章标签: 阿里巴巴


关注微信公众号“架构说”,加入Q群微群,让架构师带你飞︿( ̄︶ ̄)︿。


原文链接: 阅读原文
免责申明: 架构说任何转载的文章都会明确标注原文链接。如有侵权,请与本站联系。
转载说明: 架构说原创文章转载时请务必注明文章作者、链接和来源。