ImageVerifierCode 换一换
格式:DOCX , 页数:9 ,大小:27.74KB ,
资源ID:2802420      下载积分:3 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.bdocx.com/down/2802420.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录  

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(完整word版当当网高可用架构之道.docx)为本站会员(b****5)主动上传,冰豆网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知冰豆网(发送邮件至service@bdocx.com或直接QQ联系客服),我们立即给予删除!

完整word版当当网高可用架构之道.docx

1、完整word版当当网高可用架构之道嘉宾:史海峰,当当架构部总监。2012年加入当当,负责总体架构规划、技术规范制定,善于把握复杂业务需求,提出创新性解决方案,参与重点项目方案设计,对系统架构进行持续改造优化,推动技术革新,组织内外部技术交 以下为分享整理正文:系统中的非功能性需求今天我们的主题是当当高可用架构设计之道,高可用并不是功能性的需求,而是传统的IT当中非功能性需求的一部分。大家可以看到我这里罗列了很多非功能性需求,但是这当中并没有高可用这三个字。举一个例子,比如说你买了一台苹果手机,无论是作为手机还是电脑,还是MP3,还是专门用来看视频的,都是功能;那么非功能性呢,比如说大家很崇拜乔

2、布斯,产品设计极致体验,苹果手机只有1个键,简单好用,这就是一个非功能性需求。另外还有很多朋友买土豪金的手机,就是为了区分开,因为颜色不一样。这个颜色也是非功能性需求。我们简单介绍几个非功能性需求。扩展性,有一些类似的可以抽象成统一模型的东西,如果说做好的话就可以支持扩展。用一个以前的例子,我以前是做电信行业的,比如说有一个需求要在全球通上开一个5块钱的套餐,接着又要在动感地带开一个10块钱的套餐,那么我们就可以做成一个模型,做成一个套餐的产品,品牌是一个属性,价格也是一个属性。这样的话,神州行再来一个50块钱的套餐,我们就不需要改什么应用,增加一些配置,定义一些产品属性就可以了,这就是扩展性

3、。高效率是说你对现有的资源使用是不是足够高效。比如说有的人写的代码比较烂,一启动就百分之几十的CPU使用率,这就不太合理。可测试,很多开发的同学不当回事,觉得开发好功能逻辑就够了。但是你做出来的东西是要保证质量的。开个玩笑,如果说测试的妹子很漂亮,你愿意手把手的教她如何来测试功能,但要是妹子走了,来了一个糙爷们还需要你还手把手的教,你就不愿意了。因此必须要有一个测试的完整方法、功能说明、测试用例。这些非功能性的需求,是整个系统是不是正常稳定、可靠运转,以及被一个团队长期沿用下去的一个前提。而可用性,涉及到很多方面。比如说伸缩性,是否能够在业务量增长的前提之下,通过水平扩展可以很容易支撑更多的业

4、务。比如说安全性、可靠性,数据会不会丢失?所以这里面很多的点,最终都是决定了可用性。那么可用性是什么呢?可用性就是这套系统最终是给用户用的,是有这些功能的,但是其他方面如果不能保障好,不能N个用户一直用,那你这个系统就无法体现它的价值。这是非常重要的,很多刚刚工作几年的,或者是一直在做产品研发的同学,对这方面没有切身的体会,没有在大晚上被人打电话说出了什么问题你赶紧来处理一下,没有这样切身的痛苦的体会。高可用到底是什么接下来我们说一下什么是高可用。CAP理论是指在分布式数据的场景来形容三者不可兼得,就是一致性、可用性和分区容忍性。在整个系统层面也可以这么理解,因为多数系统的核心就是数据,数据本

5、身受限于这三个特性只能满足两个,不能三个一起满足,整个系统也是如此。在互联网场景里,因为数据量大分区容忍性是必须要支持的。一致性可以稍微容忍一些,但是可用性是一定要保证的。所以最后多数的互联网公司多数的业务系统就是牺牲一致性,保证可用性和分区容忍性。我们继续往下看,什么可以影响可用性。首先是天灾,去年杭州发生了一起惨案,支付宝机房的光缆被挖掘机挖断了,这就算是一种天灾了。还有青云的广州机房被雷劈了,这也是一种天灾。以上的情况基本上是不可抗的。其次是人祸,携程公司去年也发生了惨案,系统宕机一下午,一直到晚上才恢复;还有阿里云,去年上了一个云盾的功能,用户在执行可执行文件的时候,就把这个可执行文件

6、给删了,回头用户再找这个可执行文件的时候就找不到了。还有是BUG,在某一些特定场景下系统出问题,这是很正常的。设计缺陷是要重点说的,它比BUG更宏观一些,是结构上的问题,不是说你增加几个判断,改一下代码就可以解决的。基本上是属于一旦发现了,要么就是大改,要么就是重构,调整原来的设计,很难马上去解决。至于说性能瓶颈和资源不足,大家知道就是这么多的服务器,如果代码性能写得好,可能能扛住更多请求,如果写得差,可能稍微增长一些就不行了。性能瓶颈就是短板,比如说负责某个模块是一个没有什么经验的小同学,代码质量不太高,他就可能成为了整个系统的短板,这个模块出了问题,其他的代码写得再好,整个系统还是不能用。

7、最后还有一些未知的情况。大家做技术做的时间长会遇到很多无法解释的未解之谜,我们一般称之为灵异事件,这个是指经常发生的,你不知道问题在哪里,但是过段时间就来一次,就好象冥冥之中有人玩你一样,但是总归是可以找到原因解决的。至于说黑天鹅的事件,则是以前从来没有出现过的情况,突然出现了,让你不知道应该怎么办,而且可能是一两年才出现一次,你会要考虑值不值得找它如何出现的。还有一些以后就再也不出现了,谁也不知道是怎么回事,你就不知道怎么办了。最后一个是未知的,我们不知道会出现什么样的事情,出现的情况我们也不知道如何应对。科学告诉我们,已知的我们可以去努力解决,但是未知的,我们无法判断。关于系统故障,有一个

8、海因法则,意思是说出现一起严重的事故,都是由很多的隐患,很多的小问题,或者说一些问题没有暴露出来,最终引发特别大的事故。负责运维的同学都知道,公司对系统的可用性是有指标的,是99.9%还是99.99%,还是99.999%,如果说公司没有这个东西压着你作为KPI,那就太幸运了,出了问题不至于让你拿不到奖金。如果说你的公司有,我希望研发和架构的同学都要清楚,而不是只有运维的同学知道,否则就是公司管理不到位,举个例子如果可用性标准是99.99%,一年系统可以挂的时间是53分钟,99.999%则是5分钟,大家想想就知道,携程挂了一下午,整个可用指标就完不成了,KPI就完成不了。高可用同时是一个概率的问

9、题。一个复杂的系统,比如说很多模块或者子系统组成的系统,是可以通过一些方式大概去估算的。前些年云计算很火,很多人都说我们有一个云要自动运行,几万台服务器必须要有自动恢复的系统,最好是分钟级恢复,秒级恢复。这些都是一个概率,怎么去算呢?比如说我有两个手机,最近一个月内有3次差一点丢1台手机,这是未遂事件,那么基本上我丢失的概率就确定了,比如说是1/30。我有两个手机的话有什么好处,没有手机用的概率就是1/900。但是丢手机的概率增加了,我就要做好心理准备,没准哪天就会失去一个。多数系统是几台或者是几十台服务器组成一个小的集群,还有很多跟它平行和上下依赖的系统。这种系统都可以用这种方式去算,大概是

10、什么样的概率。这个还涉及到容量评估,要考虑系统负载是多少?比如说像我们以前做企业级系统用小型机,小型机的可靠性非常高,平时就是50%左右的负载,这个时候三四台机器加在一起就够用了,因为挂一台基本上系统不会有太大影响。但是如果用不太可靠的PC服务器或者其他解决方式,因为担心可能出现的状况,所以现在很多互联网公司采取的是常年运行10%的CPU或者是20%的CPU状态。我们可以考虑一个系统,比如说一台机器挂了,影响系统部分出现问题的概率有多高,多个系统总有一天会出问题,如果说系统足够大,大家可以想像,无论是Facebook、谷歌,还是BAT基本上每天都会有各种各样的小问题。所以越复杂的系统越是难以评

11、估,我们要保证出现问题的时候可控。高可用并不是万无一失,我们是用更多出问题的概率去降低整个系统出问题的概率。还有一个说法叫墨菲定律。基本上你想到的最坏的事情它总会发生的。上学的时候,数学老师会说,小概率事件基本上不会发生。但是在IT,在一个复杂环境当中,在上千台上万台服务器的集群中,几百人几千人做的系统,一定会有一天出问题的。所以人算不如天算,你算出来概率很低,你保证我出问题的概率哪怕是几十万分之一,你觉得这辈子就赶不上了?不见得的。那么怎么办?就是时刻准备着。这是我做了这么多年开发最大的体会。我们做的是一个724小时对外服务的系统,不能停。不能停的概念不是说像有的公司那样,白天有人用,晚上没

12、人用,晚上出事了,我们来得及修补修补。但是像电商是724小时的,半夜三四点都有下单的。人家在熬夜开心下单的时候,你出了问题,阻止人家的下单,要不然就是打电话投诉,要不然是找地方吐槽。系统故障不仅是技术上的问题,最严重的是影响客户体验,前一段时间我们的评论系统出了点小问题:一个客户买了一个面条机,反馈说并不是因为产品本身做不好面条要退货,因为其他原因,这个因为产品已经用过了所以按照规定是不能够退货的。结果用户想评论的时候评论不了,用户就觉得说当点击评论按钮时,系统告知接口错误,觉得这是在针对他,其实这只是系统故障,但是用户并不会这么想。当你做了各种各样的准备,觉得万无一失了,难免有一天可能还是会

13、翻船了。但是遇到这样的事情也是好事,经验都是在这个时候积累起来的。那么什么是高可用?基本上就是三句话,降低故障出现的概率;缩小故障影响的范围;出现故障快速恢复。不能因为是个小问题就觉得无所谓,反正我一堆的服务器,挂一个就挂一个吧,这种情况不好说会不会另外一个也挂了。因此有问题要尽快处理,最终的目的就是让用户可以正常的使用。如何设计高可用架构高可用架构设计常用的姿势。大家看到这是一架飞机。我们有一个比喻说做运维这种系统,就是开着飞机修飞机。首先系统一直运行,其次运营、产品各种业务部门会不停提各种各样需求,然后领导也许不懂技术,不懂什么叫分支、什么叫循环、什么叫面向对象;但是懂两个词,一个是敏捷,

14、一个是迭代。所以做这件事情的时候难度是比较高的。我们不能让这架飞机停下来歇几天,把翅膀换了再飞上去;而是常年在天上飞的,飞上去的时候也许就是个阿帕奇直升机,特别是创业公司。回头要拓展一个业务,增加一些功能,做着做着原来的业务不行了,新的业务变成了主营业务,结果变成了F15,从直升机变成了战斗机,然后变成F16,变成F22。一旦技术团队没有做好,一头栽下去,技术团队的名声就砸了。要么是没做出来,要么是做出来之后一上线挂了,市场费用都白花了,这个责任要技术来承担。我在四个领域里面分别提炼了几条高可用相关的架构方式。业务架构就是指产品是什么功能,有什么要求。 首先是领域切分,不要把鸡蛋放在一个篮子里

15、,比如说一些传统网站,有非常多的二级域名。某一个二级域名挂了,都是不同的服务器,其他的还可以提供正常的服务。 系统分级,哪些系统对用户来说比较重要,级别就会更高,我们就要花更多心思去保障,其他的相对差一些。 降低耦合,最近在架构圈当中流行一个词叫康威定律(编者注:Conways law: Organizations which design systems are constrained to produce designs which are copies of the communication structures of these organizations),是指系统架构是和公司组织

16、架构是有关系的。降低耦合也是如此,不要把系统搞得太复杂,你的组织和团队不要和太多的部门打交道。优化架构,让系统的关系尽可能的简单、明确。这样出现问题范围可控。 有损服务是什么意思呢?可以牺牲一些用户体验来保证基本功能的可用。系统架构当中,分以下几点。 第一个是数据独立,不允许跨系统访问数据库这个常识大家都懂,但是很多公司做不好,因为没有强有力的措施去控制。这种事情做起来不太容易,需要管理或者说大家认可才行,但是实际上是非常关键的,因为数据如果不切分,系统很难切分,耦合就非常严重。时间长了出了问题,你连谁写的,谁改的这个数据都不知道,那怎么办? 第二点是集群分布,这个就不提了。 第三个是冗余部署。比如说电商业务是有波动的,每天的上午11点或者是下午4、5点订单量都会增长,上班族都要休息一下,给自己的辛苦找一些心理安慰,这个时候开始购物。但不能说就这

copyright@ 2008-2022 冰豆网网站版权所有

经营许可证编号:鄂ICP备2022015515号-1