快捷搜索:  as

Azure云服务故障造成业务停顿 我们能从中学到什

Azure遭雷击后营业停摆

本月初,Azure因蒙受雷击,造生长光阴的营业逗留。随后又由于办事器宕机,而再次停息2小时办事。是否由于Azure“流年晦气”?着实业内人士都懂得,这只是意外,而我们无法猜测意外什么时刻会发生,就跟无法猜测会由于什么而发生意外一样。

对付变乱勇于承担并予以办理无疑是令人欣慰的。

Azure的工程部主管说“首先,我想对受影响地区的托管客户为长光阴的VSTS故障及其对举世客户带来的影响深表歉意。这起事故对我们来说前所未有。在我们七年的历史中,此次故障是VSTS客户碰到持续光阴最长的。我经由过程Twitter、电子邮件和电话与客户沟通,客户的团队至少有一天无法正常办公。我们让客户失望了。这是一次苦楚的经历,为此我致歉。”(译文滥觞于“云头条”)

随后,Azure对自身的办事设置、备份规划、硬件举措措施、职员掩护等进行了一系列的调剂。虽然这些调剂大概在未来并不能避免所有意外的发生,但至少能够减轻变乱带来的不良影响,削减造成的丧掉。

我们从中能学到什么?

人类有爱好成功、惧怕掉败的天性,照旧以而绞尽脑汁地设计了许多“完美模型”想避免掉败。事实上,由于迷信“完美模型”而吃的大年夜亏很多,比如:“泰坦尼克号”曾被觉得是“弗成沉没”的;马奇诺防线也被称作是“弗成超越”的;在发生核透露之前,每个核电站都声称自己的安然系统是“万无一掉”的……

意外的发生,最大年夜的好处便是让我们加倍进步。由于游轮爆炸污染海面而对煤油运输的安然举措措施重加斟酌,由于核反映堆发生意外而改良核反映历程和安然举措措施,由于发明上万种不得当做灯丝的材料后而找到钨丝……

于是,我开始思虑,从Azure的变乱中我们能学到什么?

我首先想到的是:“防患未然”的立场。在容灾备份这个行业,每年都邑发生多少或大年夜或小的IT变乱,比如:某公司员工误删数据了、某病院办事器宕机营业逗留了、某黉舍被打单病毒进击了、某单位损掉数据了,等等。在蒙受意外之后,结果若何就跟“防患未然”的立场大年夜大年夜相关了。

这里举个不久前的例子,今年7月中旬,重庆市南岸区人夷易近病院因意外断电2次,导致病院His系统数据库发生逻辑故障,无法正常启动。

数据库逻辑差错故障截图

作为二甲病院,重庆市南岸区人夷易近病院早就为His系统支配了容灾备份软件,来以防万一。是以,在故障发生后,在容灾备份软件厂家北京和力记易科技有限公司西部大年夜区技巧工程师的帮忙下,使用备特佳软件的“随意率性光阴点回退”功能,一次性成功规复数据,办理了数据逻辑故障问题,经校验,数据完全同等,His系统规复正常应用。

有了“防患未然”的立场,之后,自然是想要“鱼”与“熊掌”能够兼得。

大年夜多蒙受IT故障的客户,在面对故障会持续多久没有明确结论的时刻,都面临着一道“鱼”与“熊掌”的选择题,是要顿时规复营业,照样要包管数据不丢?此中一些客户,他们不想损掉任何数据,只要能规复数据,不管这个历程有多长。而别的一些客户,必要让宏大年夜的团队迅速开始事情,哪怕损掉部分数据也认了。

这个选择在构建容灾备份规划的时刻也会碰到。一方面是数据的100%备份与规复,一方面是营业的继续性,“鱼”与“熊掌”若何兼得?

作为国产容灾备份软件厂商,北京和力记易科技有限公司早就已经开始思虑并办理了这一问题。和力记易自立研发的备特佳容灾备份系统,以CDP持续数据保护技巧为核心,实时监测数据变更并备份,数据变更传到备份机今后,一份与曩昔的数据实时覆盖,形成一份最新的及时可用数据,别的一份以自有款式存储。备份机上这份及时可用的数据与临盆机上的营业数据完全同等,假如临盆机意外宕机,备份机完全可以代替临盆机继承对外办事。而以自有款式存储的数据,可以在蒙受IT故障后,用于数据的随意率性回退,就像前面举例阐明的那样。既能包管数据安然,又能保障营业继续,“鱼”与“熊掌”也可得兼。

编者语:

蒙受故障并弗成怕,从中进修,好的保留,不好的就改变,我们会不停走在进步的路上。

您可能还会对下面的文章感兴趣: