技术解读阿里去IOE后的系统架构.docx

上传人:b****6 文档编号:5258366 上传时间:2022-12-14 格式:DOCX 页数:69 大小:3.71MB
下载 相关 举报
技术解读阿里去IOE后的系统架构.docx_第1页
第1页 / 共69页
技术解读阿里去IOE后的系统架构.docx_第2页
第2页 / 共69页
技术解读阿里去IOE后的系统架构.docx_第3页
第3页 / 共69页
技术解读阿里去IOE后的系统架构.docx_第4页
第4页 / 共69页
技术解读阿里去IOE后的系统架构.docx_第5页
第5页 / 共69页
点击查看更多>>
下载资源
资源描述

技术解读阿里去IOE后的系统架构.docx

《技术解读阿里去IOE后的系统架构.docx》由会员分享,可在线阅读,更多相关《技术解读阿里去IOE后的系统架构.docx(69页珍藏版)》请在冰豆网上搜索。

技术解读阿里去IOE后的系统架构.docx

技术解读阿里去IOE后的系统架构

从Hadoop到自主研发,技术解读阿里去IOE后的系统架构

浏览次数:

437次 CSDN 2014年11月02日 字号:

 大 中 小

分享到:

QQ空间新浪微博腾讯微博人人网豆瓣网开心网更多0

【导读】互联网的普及,智能终端的增加,大数据时代悄然而至。

在这个数据为王的时代,数十倍、数百倍的数据给各个机构带来了无尽的机遇;然而,无可否认的是,数据体积的暴增同样前所未有的挑战着企业的基础设施。

在这个大背景下,各个机构不得不在控制好成本支出的同时,不停摸索着时刻激增用户数据的解决之道,其中阿里的成绩无疑令人艳羡——单集群规模5000+的飞天,以及多集群跨机房计算的支持。

本次我们将以飞天为例,为大家分享大规模分布式系统打造过程中的艰难坎坷及应对之道。

本次分享共分为视点、技术专题、应用实践三大板块:

“视点”从人物着手细分阿里当时所面临的形势及各个据测制定的依据;“技术专题”主要从实践出发剖析飞天5000节点扩展时所遭遇的艰难险阻及应对之道,涉及架构调整、性能优化、系统运维等多个领域;“应用实践”则更注重于云实践经验及用例分享。

视点

1.阿里云观察2014

2.阿里技术保障部:

阿里云的幕后英雄

3.不期而遇的飞天之路

技术专题

探索5K巅峰,云梯架设的飞天之梦。

在3个月deadline的情况下,阿里却选择投入更多人力物力及时间的云梯1(以Hadoop为底层的集群)和云梯2(以飞天为底层的集群)并行扩容,阿里人选择背水一战的原因究竟是什么?

在这个过程中,他们又会遭遇哪些挑战?

目标实现后的惊喜又是什么?

优化无极限:

盘古Master优化实践。

盘古,飞天的分布式文件系统,在内部架构上盘古采用Master/ChunkServer结构,Master管理元数据,ChunkServer负责实际数据读写,通过Client对外提供类POSIX的专有API。

在集群扩展到5K规模后,相关问题纷至沓来,主要可分为两个部分:

首先,盘古MasterIOPS问题;其次,盘古Master冷启动速度。

那么究竟是什么造成了这些问题?

阿里工程师又该如何应对?

走近伏羲,谈5000节点集群调度与性能优化。

伏羲,飞天平台的分布式调度系统。

在5K攻坚中,从设计到实现每一步都可能存在性能“陷阱”,原因主要在三个方面:

规模放大效应;木桶效应;长路径模块依赖。

5000节点后这些方面究竟存在什么样的问题?

阿里人又通过了什么方法保证了服务的性能与稳定性?

走近华佗,解析自动化故障处理系统背后的秘密。

5K后的运维模式究竟会产生什么样的变化?

阿里人究竟为什么会开发华佗?

上通飞天系统,下达运维各种系统,华佗健壮、简单和开放的架构究竟表现在什么方面?

系统又是如何实现了自动化的运维?

ODPS技术架构及应用实践。

ODPS采用抽象的作业处理框架将不同场景的各种计算任务统一在同一个平台之上,共享安全、存储、数据管理和资源调度,为来自不同用户需求的各种数据处理任务提供统一的编程接口和界面。

那么,在DT时代,不断扩大的数据规模又会给ODPS带来什么样的挑战?

网站日志分析又该如何进行?

ODPS跨集群迁移与数据同步经验分享。

阿里各业务部门如淘宝、天猫、一淘、B2B等每天都会产生大量的数据,日均增量数百TB。

2013年初,阿里内部的生产集群PA所在机房的存储量最多可扩容到数十PB,而当时已使用75%的存储量。

存储容量告急,迫切需要将生产集群PA上的大量数据迁移到其他集群。

那么阿里人该如何安全地跨集群迁移几十PB的数据和其上相关业务?

数据迁移之后,两个集群间存在大量的数据依赖,需要互相访问最新的数据,如何安全快速地实现跨集群数据同步?

飞天5K实战经验:

大规模分布式系统运维实践。

但短时间大规模快速膨胀的现状,给运维带来了巨大挑战,其中云梯2单集群规模更是从1500台升级到5000台。

为此,运维需要做多个方向的调整,比如:

提升全局掌控能力、实现系统的自我保护和自动化修复、大规模与精细化的平衡。

那么,阿里又是通过什么途径完成这些工作的?

应用实践

1.数据生意背后的云计算

2.登月1号:

支付宝演绎空中升级绝技

3.御膳房:

构建大数据的美食厨房

节选

《不期而遇的飞天之路》——去IOE,飞天势在必行

翻开历史,淘宝曾启用全亚洲最大的OracleRAC集群,阿里更是购买过3年无限制的许可,阿里在IBM小型机以及EMCSAN存储上的投入也曾成为媒体争相报道的事件。

但随着互联网爆发式发展,淘宝、支付宝和阿里巴巴B2B的注册用户数激增,阿里只能不停地通过水平和垂直扩展架构来应对新增用户生成的海量数据。

而这种集中式数据库的架构,使得数据库成为了整个系统的瓶颈,越来越不适应海量数据对计算能力的巨大需求,更不用说越来越难以承受的高昂投入。

阿里的“去IOE”已经势在必行:

通过自主研发的分布式系统取代集中式数据库架构,使用MySQL+HBase取代Oracle,商用机取代小型机+SAN。

选择自主研发,这也是阿里云在步入云计算之路上做出的最重要的抉择:

坚持追求拥有自有的最有竞争力的核心技术。

在唐洪看来,云计算是一门高技术门槛的生意,具备核心技术竞争力等于具备了在战场上可以正面抗衡竞争对手的实力,尽管这个技术攻关的历程非常之艰难。

选择自主研发而非采用开源Hadoop优化,也是基于一定的考虑,尽管Hadoop在离线大数据处理上具备优势,但无法完全提供阿里云要求的大规模分布式计算与处理的能力,而目前基于飞天上线的云服务,已远远超出Hadoop的能力。

开源可以说是一条先易后难的路,尽管一开始可以走一些捷径,但事后在版本升级、研发上都会受颇多限制;从核心知识产权角度来看,今天无论是微软、Amazon或者Google的云计算平台,都没有采用Hadoop且不开放代码开源,本质上都是在追求自有的核心竞争力。

开源软件无法彻底成为一个云计算底层平台的基础,采用开源软件并非解决做分布式系统这个问题的一剂良方。

发展自有技术,坚持底层自主研发,如今能够构建超级计算机的飞天已成为阿里拥抱云计算,以及对外提供云计算服务的坚实基础。

结语

已经实现5000节点单集群的飞天5K拥有惊人的规模:

10万核的计算能力;100PB存储空间;可处理15万并发任务数;可承载亿级别文件数目;100TB排序30分钟完成,远超今年7月1日Yahoo!

在SortBenchmark排序测试DaytonaGraySort所创造的世界纪录——100TB排序完成时间约71分钟。

优秀的产品背后,必定有优秀的基础设施支撑。

在此,我们期望越来越多的团队打造出更加稳定、更具性能的底层平台,不管是自主研发,亦或是基于开源。

阿里云观察2014

发表于2014-10-1013:

28| 11899次阅读|来源《程序员》| 38 条评论|作者刘江

《程序员》杂志2014年10月刊阿里云《凌云》云计算

摘要:

Amazon云计算对整个新兴产业的发展无疑举足轻重,而国内,阿里云的成败也有类似的分量。

2013~2014年,阿里云几乎一直主导着云计算方面的业界话题。

2011年和2012年,我先后两次对话阿里云的负责人王坚博士,并在《凌云》杂志发表了《追寻凌云梦》和《阿里云观察》两篇文章,记录了阿里云和王坚本人不同发展阶段的酸甜苦辣。

在后一篇文章的结尾,我这样写道:

“全球范围内,Amazon云计算对整个新兴产业的发展无疑举足轻重。

对于中国来说,阿里云的成败也有类似的分量。

我没有想到的是,此后一年多,国内外云计算的形势很快就发生了较大变化。

最引人瞩目的故事,是Amazon在2013年3月获得美国中情局6亿美元的大单,强力攻入企业级市场的核心地带——政府。

更有戏剧性的是,IBM为此不惜把中情局告上法庭,仍然未能挽回局面。

而在总体格局上,微软和Google先后放弃只做PaaS的战略,开始在IaaS市场发力,引发一系列连锁反应。

2012年6月6日,微软首次公开自己的IaaS服务的时候,还用混合云的名义来遮掩。

而同月Google在I/O大会上发布IaaS平台GCE(GoogleComputeEngine)则高调多了,剑锋毫不客气地直指AWS。

等两家IaaS正式上线开放服务,已经到了差不多一年后2013年的4月和5月。

总体上,它们比Amazon要晚了5年以上。

以至于去年8月Gartner的数据估计,AWS的计算容量是后面14家竞争对手总和的5倍。

但是,两大巨头毕竟实力雄厚(技术实力毋庸置疑,又握有数以百亿计美元的现金),只要公司顶层下了决心(解决了我所说的“一把手工程”问题),无论产品还是市场上都追得很猛。

2014年1月,Google负责基础设施的高级副总裁UrsHölzle给全公司发出一份令人震惊的备忘录,表示自己的团队将对公司内部包括搜索和Gmail这样的“客户”减少关注,将大部分精力转向公司以外的新客户,大力打造公共云计算。

2014年2月,微软原来负责云业务的SatyaNadella成为新的CEO,他很自然地将云定为公司的两大核心战略之一,Azure无论在产品还是市场力度上陡然加大。

巨头竞争最大的利器,是大把在固定资产上投钱(每年投入在数十亿美元),然后展开血肉横飞的价格战。

2014年3月,Google首先发起一轮大规模的降价,各项服务降幅达32%~85%,Amazon第二天就马上跟进,微软的降价通知也不过再等了几天,但后两家的降幅比Google都要小一些。

价格战的直接结果是“神仙打架,百姓遭殃”,RackSpace这样的独立云厂商首先撑不下去了:

他们拒绝跟进降价,继而在一片收购和私有化传闻中,几个月内的股价跌去一半,不得不在今年5月宣布退出纯IaaS市场,主推绑定服务的托管云。

即使是Amazon也开始感到吃力,第二季度的财报发布时,他们的CFO公开承认价格战影响了公司的财务表现,股价也应声而落。

到7月份,一些国外的分析机构和媒体已经在讨论:

如果把SaaS加进来,到年底微软的云业务收入会不会超过Amazon?

形势现在很清楚了,在美国,公共云计算市场已经成为巨头的角斗场所。

只有既有资源、又有技术实力的公司才能继续生存。

Amazon虽然一开始战略对头,选对了从IaaS开始,成为长期的领跑者,至今仍然有较大优势,但Google和微软一旦发力,这场长途征战,鹿死谁手,还很难预料。

三巨头之外,还有哪些公司能拿到所剩无几的船票?

Apple、IBM、Facebook、Oracle、Intel、Cisco、EMC/VMware……候选人的名单很长,但胜出的概率却很小了。

国内的情况呢?

从某些方面看,与前几年的美国Amazon一马当先,微软和Google还在犹豫,但AWS之上的云生态已经方兴未艾的确非常类似。

中国市场上,阿里云的行业领导地位已经基本确立,腾讯云虽然也有比较完整的产品线,但对外似乎并不急于发力,XX云更是一直战略方向都没有定下来,电信运营商和其他较大的IT公司也同样心不在焉。

而各类创业公司则一派欣欣向荣的景象。

某种程度上,正是在阿里云不断地通过双十一、余额宝和去IOE等大动作震撼业界、教育市场的东风下,中国云计算生态的确有了很大起色。

越来越多的移动游戏、互联网、电商、金融、在线教育、企业软件服务规模性转向云计算。

与之相对应的,从2013年1月开始,国内连续出现多起云计算领域投资案例,一扫之前的阴郁,包括IaaS层面的七牛、又拍、QingCloud、UCloud、UnitedStack、道里云、群核、监控宝、云杉网络、多备份、VisualOps、华云数据、刻通云、巨杉等,SaaS层面的Tower、Worktile、明道、纷享、Teambition……以至于常参与讨论的云计算行业微信群里,在我的持续观察之下,除我之外的其他人在一年多的时间里几乎都拿到投资,成了土豪。

有些IaaS公司融资高达数千万美元,意味着他们的收入很可能可以达到数千万乃至过亿人民币的水平。

在《阿里云观察》一文中,我曾经说过:

“阿里云在国内目前没有真正的对手,2013年将继续享受较长时间的机遇窗口。

”事实上,阿里云的确很好地抓住了这个机遇,打了好几个漂亮仗,几乎一直主导着云计算方面的业界话题。

∙2013年5月17日,阿里集团最后一台IBM小机在支付宝下线,7月10日,淘宝最后一个Oracle数据库在广告系统中下线,“去IOE”取得关键性成功。

与此同时,“去IOE”也引起IT界热议和思考,技术重新选型蔚然成风。

∙2013年6月13日,余额宝在阿里云的支撑下推出,一年后用户过亿,规模达到近6千亿,使背后原本默默无闻的天弘基金成为业界领导者,震撼了中国基金业乃至整个金融业,互联网金融成为社会热点。

∙2013年11月11日,双十一再创纪录,单日成交额达到362亿,而建构在阿里云之上的聚石塔处理了75%的订单量,无一故障。

而双十一巨大的成交量,让零售业感受到了前所未有的变革压力。

∙2013年11月27日,代号“聚宝盆”的金融云服务推出,阿里云成为金融行业IT架构的一个新选择。

次年5月媒体报道,使用阿里云服务的金融机构超过100家。

∙2014年2月27日,阿里与海南签订规划总投资50亿元的“未来城市”计划。

此后,阿里云在政务与民生领域的新闻不断地见诸报端:

中国气象局、广西、贵州、宁夏、河南、河北……

∙2014年3月4日从CDN正式商用起,新的产品和服务也在密集推出,仅在6、7月就连续开放大数据处理服务ODPS、日志服务SLS、搜索OpenSearch、BI服务DPC(采云间)和可用区。

∙2014年3月31日,联合高德等推出代号“聚无线”的移动云平台。

∙2014年4月29日,北京数据中心开放。

5月和9月香港和深圳数据中心又陆续开放,节点总数达到5个。

∙2014年7月15日,开始免费试用四款入门产品的活动。

∙2014年8月19日,发布“云合计划”,要以2:

8分成的政策招募1万家云服务商,与之前成立的云栖小镇联盟,组成完整的生态系统。

……

2014年5月,阿里巴巴集团的上市招股书中,Cloud一词出现达80多次,显示云计算成为集团非常重要的组成部分。

另外,业界也从中得知,阿里云计算等互联网基础设施收入2013年超过1亿美元。

虽然量级与美国仍有差距,但也打破了云计算的泡沫之论。

近百万用户数量,更是令人鼓舞。

而对阿里而言,这一年多最重要的突破和转折点,却是不太为外界注意的飞天5K项目的成功。

飞天是阿里云的核心系统,它本来的设计目的就是将成千上万台服务器组成一台超级计算机,对外提供通用计算服务。

早在2012年初,王坚就表示,“从战略上来说,他们(阿里云)想做的事情实际上可以解读为Amazon+Google并有所超越”。

将单一集群做到数千乃至更高,技术上是国家和企业竞争力的标志。

阿里云必须攻克这道难关。

只不过,2009年才起步的飞天,一直没有机会冲击这一目标。

2013年,这个机会来了。

一季度做预算的时候,大家发现,阿里集团内部数据处理的两套系统——基于Hadoop的云梯1和基于飞天的ODPS(云梯2)随着单集群规模不断扩大,都到了几千,面临5000集群规模和跨机房的门槛。

如果分别继续投入、重复建设,开发和维护成本很高,浪费巨大,必须舍弃一个。

怎么办?

当时技术团队内部的争论非常厉害,甚至当着马云的面也不掩饰。

Hadoop作为大数据的标志性开源项目,本身更加成熟,在技术人员心目中地位很高,感情很深,而且Hadoop集群的规模本身更大。

但是可控性、安全性的问题可能更会在长期成为过不去的坎儿。

阿里技术保障部负责人刘振飞的一句话透出了这场争论背后的本质:

“Hadoop的定位就是陪太子读书,而太子就是ODPS。

”飞天5K项目因此启动,一方面ODPS往5K规模升级,另一方面Hadoop不再发展,处理负荷向ODPS迁移。

以唐洪为首的飞天核心研发团队历经4个月艰苦努力,对盘古、伏羲等组件进行了深入优化,并全新开发了自动故障处理模块华佗(细节可以参考本期凌云的相应的文章)。

到2013年8月15日,这个任务胜利完成,新的基于飞天5K的ODPS生产集群规模达到5000,而且实现了跨机房,并经受了整机房断电的严苛考验。

平台计算100TB排序只需30分钟,远超Yahoo!

在7月刚刚创造的71分钟世界纪录。

阿里成为世界上屈指可数的具备这一能力的公司之一,也是第一个对外提供这种能力的公司。

多年来,中国在前沿性的关键技术上少有地站到了世界领奖台上。

从各方面看,飞天5K都是阿里云乃至阿里巴巴历史上重要的里程碑。

到今天,支付宝的所有数据处理、淘宝的数据仓库、阿里小贷的贷款业务等越来越多的集团关键应用,都已经由ODPS和飞天5K支撑。

据刘振飞透露,阿里云终于借此在集团内部证明了自己。

在此之后,阿里内部关于做不做云计算、到底用Hadoop还是用ODPS,甚至王坚和阿里云靠谱不靠谱的争论都结束了。

飞天5K项目为此画上了一个休止符。

此后,阿里云作为集团的统一技术平台,已经成为上上下下的共识。

最近,几千台的HBase集群也在往OTS上迁移。

淘宝、天猫、支付宝的负责人,现在已经主动提出,要将核心系统迁移到阿里云提上日程。

在这背后,集团副总裁王文彬(花名菲青)在2014年初接任阿里云总裁,他原在淘宝天猫负责开放平台与商家业务,技术和生态建设背景均很资深,而且他领军的聚石塔是之前淘宝系基于阿里云所做的最重要的项目之一,对阿里云也有比较深的了解。

同时,以集团副总裁章文嵩、传奇技术专家蔡景现(花名多隆的他刚刚成为阿里集团的合伙人)等为代表的许多原淘宝系技术精英也进入阿里云,负责主要产品的研发,大大增强了阿里云的技术实力。

2014年9月原Oracle全球副总裁喻思成加盟,以集团副总裁出任阿里云技术业务总经理。

再加上以刘振飞为首的猛将如云的阿里技术保障部在基础设施和运维的全力支持(参见本期文章《阿里技术保障部:

阿里云的幕后英雄》)。

至此,阿里云的阵容空前强大。

2013年9月,在王坚卸任阿里云总裁的消息发布之后,媒体有各种不明内情的解读。

10月阿里云开发者大会,在会场附近的绿地上,我和其他云栖小镇联盟的成员一起见证了飞天5K纪念碑的揭幕仪式,王坚非常动情地张罗着众多还在阿里云或者已经离开的同事一起与刻着大家名字的纪念碑合影。

我知道,这个纪念碑其实主要是王坚自己与小伙伴们几年在云计算核心技术自主研发上筚路蓝缕的阶段性总结,他的云计算之路远没有结束。

此后,由于有了更多强有力的帮手,他得以从具体业务抽身,更多地将精力转到云计算和大数据战略思考、客户沟通与布道上,在更大的范围内发挥自己的影响。

事实上,王坚自己一直认为,阿里自己的业务用不用阿里云,对阿里云而言并不是最重要的事情。

阿里云要成为全社会的通用计算平台,这个难度无论从技术还是服务上,比支撑阿里内部要大得多。

只不过阿里云如果做得好,阿里内部也会用,这是一个附带的成果。

这一年来,他与各种类型的客户交流,感触很深。

他说,无论是政府、金融还是中小企业,一旦转到云计算,所能释放出来的创新能力,远远超出了他的想象,经常令他心潮澎湃。

而客户对云计算的态度很大程度上已经转变,越来越多人对云计算是乐于接受的。

反过来,云平台的挑战也越来越大。

这么多客户要用,你的能力够不够,你接不接得住?

就拿铁道部网站的问题来说,这其实不完全是政府相关部门的问题,更多的是围绕铁道部的那些企业的问题。

很多事情解决不好,中国的企业不能老是赖政府,企业也有自己的责任。

云计算企业要尽快提升自己的能力,否则很多客户会不得不去做一些不正确的事情,比如大规模地自行建设数据中心,用非常传统的技术架构。

“最怕的事情是,五年后专家们不断呼吁要扶持国产云计算。

”王坚说自己经常有时不我待的紧迫感。

与此呼应,王文彬在介绍阿里云工作重点时说,今年的主要目标是在提升既有产品稳定性和体验、推出更为丰富的新产品的基础上,扩大阿里云的影响和市场份额,提升阿里云的口碑。

产品和服务都是重中之重。

他希望与更多合作伙伴一起提升用户体验。

云计算本身似乎存在一个悖论,就是为了竞争和扩大规模,必须不断降价,而这又会最后使平台自身无利可图。

Amazon最近的财务表现似乎证明了这一点。

微软的云负责人在阐明自己优势时,说的是除了云平台本身的收入之外,微软还有其他软件授权收入,言下之意也是云计算本身不太挣钱。

这也是许多其他巨头尤其是主营业务利润率比较高对此看不清楚,而迟迟没有真正投入的重要原因之一。

对此王坚表示,现在关于云计算还是有很多似是而非的认识。

一方面,阿里、淘宝平台还有公共电力行业的发展历史,都证明了平台本身最后能够成为大生意,而且并不困难。

由于杰文斯效应(Jevonseffect),技术的进步会增加对技术的消费量,只要到了一定的规模,盈利是迟早的事情。

另一方面,我们实际上已经从IT(信息技术)进入到DT(数据技术)时代,互联网+数据取代了计算机+软件,云计算是将更多行业乃至全社会数据化的平台和前提,它的价值不只是平台本身的盈利,而更在于作为基础设施,将数据的价值释放出来。

这个意义要大得多。

最近的几次谈话中,他举了非常多让自己感动和惊讶的云计算用户案例。

“用户用阿里云在做的事情,才是阿里云的价值所在。

”他举例说,美国电力科学研究院(EPRI)的数据表明,一部iPad如果每天完全充电一次,一年所耗费的电费只有1.5美元,而用户拿它去干的事情则不知道会多么伟大。

王文彬也非常强调阿里云上推出ODPS这种大数据服务的意义,这也是阿里云目前的重要特色之一。

从很多方面来看,中国的云计算发展有可能超越美国。

由于阿里等互联网公司积极向各行业渗透,具有比美国同行更大的影响力,加上国内许多公司的IT系统并不成熟,全社会又具有改革惯性,完全有可能直接跨越一个阶段,基于云计算平台构建新的核心IT系统。

这既是阿里云及其同行的机遇,也是重重的责任。

阿里技术保障部:

阿里云的幕后英雄

发表于2014-09-2710:

48| 8365次阅读|来源未知| 0 条评论|作者刘江

阿里云

摘要:

阿里集团上市前夕公布的最新27名合伙人名单中,出现了公司副总裁、技术保障部负责人刘振飞的名字。

这当然既是对他个人的认可,也是对阿里技术保障部这一幕后英雄团队贡献的肯定。

阿里集团包括阿里云、天猫、淘宝、支付宝、小贷在内的各项业务,以及近几年双十一、飞天5K等诸多奇迹的背后,这...

阿里集团上市前夕公布的最新27名合伙人名单中,出现了公司副总裁、技术保障部负责人刘振飞的名字。

这当然既是对他个人的认可,也是对阿里技术保障部这一幕后英雄团队贡献的肯定。

阿里集团包括阿里云、天猫、淘宝、支付宝、小贷在内的各项业务,以及近几年双十一、飞天5K等诸多奇迹的背后,这个团队都发挥了关键性的基础支撑作用。

然而,不仅外界听说过阿里技术保障部的人不多,就连我虽然与刘振飞已经相识多年,对他们团队的具体情况以及与阿里云的渊源也只是一知半解。

近日我终于找到一个机会,在杭州和他好好聊了一上午。

阿里技术保障部的故事,要从2009年8月说起。

今天的用户可能难以想象,当时淘宝网非常不稳定,动不动就访问不了,或者要停机维护,搞得领导们很生气很无奈。

以至于当时淘宝的总裁陆兆禧感慨,淘宝2008年全年成交额是999.6亿,要是少宕几次机,就过千亿了啊。

刘振飞说:

“你想,当一个公司的CEO天天在琢磨这种事,就说明技术平台上真是出大问题了。

”9月25日,为了解决淘宝系统的问题,成立淘宝技术保障部,将阿里妈妈和淘宝的运维、数据库等工作和团队合并,当时正在北京负责淘宝广告(阿里妈妈)技术团队的刘振飞被领导点将,负责组建这支团队。

阿里集团副总裁、技术保障部负责人刘振飞

刘振飞搬到杭州真正进入角色,已经到了2009年的11月2日,此后很长时间内,他和团队都处于救火队的状态,几乎每天大概都要处理几十起紧急情况。

但更大的挑战却是阿里妈妈和淘宝两个运维团队的合并并不那么顺利。

“你要知道是两套体系,两套人合起来,人的观念不一样,大家经历不一样,习惯不一样,工具不一样,什么都不一样。

合起来真是非常痛苦的过程。

”刘振飞甚至夸张地说这一经历给自己留下了不小的心理阴影。

而每年的双十一对刘振

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 小学教育 > 小学作文

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1