科技行者

行者学院 转型私董会 科技行者专题报道 网红大战科技行者

知识库

知识库 安全导航

至顶网软件频道产业观察微软存储服务性能更新导致Azure故障

微软存储服务性能更新导致Azure故障

  • 扫一扫
    分享文章到微信

  • 扫一扫
    关注官方公众号
    至顶头条

上周微软Azure近11小时的故障是由于微软升级Azure存储服务的性能导致的,微软Azure企业副总裁Jason Zander解释了这次故障的原因,并对所有受影响的Azure用户道歉。

来源:ZDNet软件频道【原创】 2014年11月24日

关键字: 微软 Azure 故障 云计算

  • 评论
  • 分享微博
  • 分享邮件

ZDNet至顶网软件频道消息:上周微软Azure近11小时的故障是由于微软升级Azure存储服务的性能导致的,微软Azure企业副总裁Jason Zander解释了这次故障的原因,并对所有受影响的Azure用户道歉。目前,微软Azure团队向用户发表致歉公开信,并表示会主动地为受影响的客户提供SLA协议赔偿,用户无需重复递交SLA赔偿申请,微软将在下个账单月为受影响用户转账。

美国太平洋时间11月18日晚,美国、欧洲和亚洲部分Azure用户存储和网站服务无法访问,部分Xbox LIVE用户无法联机,微软MSN.com网站、Visual Studio Online和搜索也得到了影响。更糟糕的是,Azure服务健康状态(Service Health Dashboard)和Azure管理门户(Management Portal)都依赖于Azure存储服务,这两款服务都没有正确地显示Azure的状态,在Azure故障的时候,页面显示服务状态为正常。

尽管微软已经测试了几周这次的Azure存储服务的性能更新,但直到微软部署到Azure上才意识到“有一个问题导致存储二进制大对象前端进入无限循环”的问题。Jason Zander表示,“结果是前端无法承接进一步的流量,反过来又导致建立在它之上的其他的服务出现问题。”

微软在发现问题后,立刻回滚了更新,但仍需要重启存储前端来彻底恢复。根据官方故障报告,“这次故障已经被大范围扩散,由于操作失误更新在短时间内快速部署到了大部分数据中心,通常这一生产环境的部署是渐进部署的”。

Zander表示,结果是一些客户仍然会遇到“间歇性的问题”。他表示,微软的工程师们正在和这些客户一起解决这些难缠的问题。

微软表示,未来将制定一系列措施,避免这类问题再次发生:

  • 确保部署工具强化应用产品变更的标准协议,在产品更新的过程中使用渐进式部署。
  • 改进恢复方法,尽量减少恢复时间。
  • 修复存储前端无限循环Bug,然后再部署到生产环境。
  • 改进服务健康状态架构(Service Health Dashboard Infrastructure)和协议。

经营云生意的基础自然是企业和用户的信任,微软非常了解事态的严重性,正在努力进行补救措施。

 


 

    • 评论
    • 分享微博
    • 分享邮件
    邮件订阅

    如果您非常迫切的想了解IT领域最新产品与技术信息,那么订阅至顶网技术邮件将是您的最佳途径之一。

    重磅专题
    往期文章
    最新文章