如何避免云服务中断

作者: 王焱

责任编辑: 阚智

来源: 中小企业IT网

时间: 2012-10-11 09:24

关键字: 云计算,云服务

浏览: 0

点赞: 0

收藏: 0

根据亚马逊的AWS监控网站,太平洋时间8:21pm的记录,该公司“正在获取数个东岸instance的联机问题”.约20分钟后,证实受到停电影响。直到上周六早上,亚马逊的多项网络服务才陆续恢复。


Netflix和Pinterest和Heroku在上周五分别通过Twitter及网站公告,表示公司服务因为系统停电问题而中止。当时Netflix及Pinterest都已恢复服务,但Instagram到周六早上还处于服务中断状态。

这也是亚马逊6月第二次发生服务中断问题。15日,该公司因发电机冷却风扇故障导致数据中心停电。

网络服务断线原因可能出于天灾,也可能出于人祸,如黑客攻击、软件更新或网络流量过大。Google也在去年九月和今年四月出现Gmail断线的情形。前者出于网络负载及程序代码更新,但后者则原因不详。

如下是专家建议的一些步骤,帮助企业的IT部门在发生云服务中断时应果断采取,避免发生更大的损失:

1)使用亚马逊网络服务的多个可用性区域。  亚马逊网络服务在各地区为每个服务都提供了“可用区域”(AZ)。公司将其可用区域描述为每一项服务都是运行在不同的独立的基础设施上的。“他们实际在物理上是分开的,这样,即使是非常罕见的灾害,如火灾、龙卷风或洪水也只会影响单个可用区域。”在去年的停电事故中,约45%的客户只采用了单个可用区域,使得其关系数据库服务受到了影响,较之仅仅只有不到3%的客户使用了多个可用性区域方式,亚马逊网络服务在报告中说。该公司经历了去年的大规模停电事故后,通过允许共同设计和API分发跨多个可用性区域的实例,使得客户更容易使用多可用性区域的方式。

2)使用多个地区的亚马逊网络服务。  亚马逊网络服务包括八个地区:美国东部(北佛吉尼亚州)、美国西部(俄勒冈)、美国西部(加利福尼亚北部)、欧盟(爱尔兰)、亚太(新加坡)、亚洲(东京),南美洲(圣保罗),和亚马逊网络服务政府部分云服务。除了额外的安全和保护多可用性区域方法之外,用户还可以采用多个地区的亚马逊网络服务,将工作量分配到多个地区。毕竟要将工作量分配到多个“可用区域”还是不太容易的,单独的API需要调用不同地区的需求。

3)选择多家云服务供应商。  即使采用了亚马逊网络服务的多“可用区域”和多“地理区域”的方法仍然感觉不保险?那么,Drue Reeves建议您选择多家云服务提供商,Drue Reeves是Gartner公司的云分析师。但Reeves也同时告诫,因为一些服务提供商共享公共数据中心资源。客户可以检查个别供应商,看看他们是否与任何其他客户共享资源。

4)明确服务水平协议。  除了采取技术措施,客户还可以采取非技术性的措施,如与云服务供应商就服务水平协议(SLA)进行谈判,明确规定好不同中断情况的处罚赔偿条款。如果客户采用了一家云提供商的灾难恢复服务,SLA可能强制高达99.999%的可用性。

5)谨慎从事,三思后行。  如果用户极为关注在云中数据和应用程序的高可用性,IDC公司的分析师史蒂夫亨德里克说,这也许意味着该客户尚未准备好采用公共云服务。亨德里克说,这是一个简单的等式:关键任务数据和计算资源越重要,客户就对于更多的弹性和高可用性的保护落实到位就越重视。

随着愈来愈多企业将IT计算或存储操作转到云环境,任何大型云服务厂商的停机,都会成为众人关注焦点,因为这意谓着7X24h营运的需求随时可能遭到不预期断线的威胁。

©本站发布的所有内容,包括但不限于文字、图片、音频、视频、图表、标志、标识、广告、商标、商号、域名、软件、程序等,除特别标明外,均来源于网络或用户投稿,版权归原作者或原出处所有。我们致力于保护原作者版权,若涉及版权问题,请及时联系我们进行处理。