系列宕机引发的思考:运维高度有待提高
作者: 张晋芬
责任编辑: 阚智
来源: 中小企业IT网
时间: 2015-06-03 09:52
关键字: 运维
浏览: 0
点赞: 0
收藏: 0
让我们先来回顾下这些瘫痪事件:5月11日晚,网易旗下多项服务无法正常使用;5月27日下午5点,拥有将近3亿活跃用户的支付宝出现了大面积访问故障,全国多省市支付宝用户出现手机和电脑支付宝无法登陆、余额错误等问题;5月28日的携程从网页端到APP全面的网络瘫痪,这黑色12小时,简直是携程16年来最难熬的12个小时;在携程事件发生的同时,蓝翔技校、知乎APP也先后出现无法加载的情况。一时间,众媒体评论纷纷,人们聚焦在这些热点新闻中,尤以支付宝和携程首当其冲。
对于这系列的功能瘫痪,来看看各家的反馈:在蚂蚁金服发给《财经》的官方回应中称,出现这一问题的原因在于市政施工导致杭州市某地光缆被挖断,影响了支付宝一个主要机房的正常运转。当天晚上19时左右,即在事故发生大约两个多小时以后,支付宝服务才恢复正常。然而,对于导致此次事件的原因,蚂蚁金服方面的解释并未获得金融和互联网界的广泛认同。此时,蚂蚁金服称仍无法精确统计在故障时间段内使用支付宝的具体用户数量。
与此相比,携程的解释更加的不尽如人意。在事件发生的12个小时中各种消息飞来飞去,一会员工误操作,一会是服务器网络故障。在携程受到攻击后,携程在首页上方曾提示,消费者可以前往艺龙旅行网进行消费。但不久之后,艺龙旅行网首页也无法访问。后经艺龙官方微博回应道,“因遭受网络攻击,艺龙网首页出现部分用户无法访问的情况,目前已恢复正常”。
携程发布一份官方声明称:“28日上午11点09分,携程官方网站及APP暂时出现无法正常使用的现象,经过技术人员抢修,在当天28日23点29分,携程官方网站及APP已经全面恢复正常。对于网上关于‘数据丢失’等一些谣言,携程多次郑重声明,数据没有丢失,预订数据也保存完整。”
纵观这一系列的事件,拥有超过4万亿年交易总额的支付宝是中国第一大第三方交易平台,约占中国整体社会消费金额的六分之一。竟然耗时2个小时才紧急将故障机房的流量切换至了其他机房。外界对于此次2小时恢复的业务主要有2点疑问:一是恢复时间竟然长达两个小时;二是究竟是出于资金安全考虑而主动放缓速度还是支付宝应急预案出现漏洞?蚂蚁金服对于这次事故的内部总结是,数据校验较多,怕丢数据,所以花了较多时间。内部认为这是一次安全但不够漂亮的灾备实战,就好比跳水,起跳不错,空中动作也还行,但入水压水花不够好。
这些事件自然为企业带来了巨大的经济损失,但是无形之中,品牌形象也受到不可估量的损伤。CA Technologies认为在应用经济时代,任何一家公司都是软件公司,客户通过软件了解企业,与企业亲密接触,软件成了创造商业价值的首要平台,也是品牌形象的重要组成部分。
在用户对于软件响应时间的忍耐度仅为6秒的大环境下,出现如此严重的瘫痪事件不得不让我们去反思,企业应该将“运维”提升到一个新的高度来加以关注,让消费者保持极佳的应用使用体验必须提升到企业的业务战略中去。同时,IT技术领域普遍呼吁互联网公司改变“尽力而为”的服务承诺和网络架构,向传统电信、IT领域高达99.999%的“5个9”安全级别靠拢。