携程宕机12 小时里都发生了什么?

“经携程技术排查,确认此次事件是由于员工错误操作导致。由于携程涉及的业务、应用及服务繁多,验证应用与服务之间的功能是否正常运行,花了较长时间。携程官方网站及 App 已于 28 日 23:29 全面恢复正常。”

5月29日 1:30 分,携程公布了这一消息。这距离携程 28 日上午 11:09 分,因酒店数据库故障而导致官方网站和 App 均出现宕机过去了整整 12 个小时。

而在正式宣布这一事故原因前,外界对于携程的此次大规模宕机已经提出了各种猜测:一种猜测是数据库数据和备份数据被物理删除,然后我们看到了各种有关“物理删除”的科普贴;携程一名内部员工在个人微博上发布的“可能是内部员工报复”的玩笑被迅速在社交媒体上发酵;来自黑客的攻击也在猜测中。

但对于不知道自己的订单是否已经成功、或是已经安排的出行会否受到影响,甚至是刚好需要退改的携程用户来说,上述所有可能的原因所指向的结果,都是一致的——在整整半天的时间内,他们无法从网站上获得任何信息,只能不停拨打客服电话,或是转而去质问携程的官方微博、微信账号。

在中国在线旅行行业中,创立于 1999 年的携程旅行网是占据了绝对优势的那一家。根据艾瑞咨询发布的最新数据,2015 年第一季度中国 OTA (Online Travel Agency,在线旅行社)市场规模为 875 亿人民币,携程占据了超过一半的市场份额。

2014 年,携程的净营收达到了 73 亿元,在年末投入 10 亿元陪打价格战之后,包括住宿预定、交通预定、旅游产品和企业服务的四大主营业务收入同比都出现了明显提升,总交易量更是同比上升了 80%。其中酒店预订业务的增长最为突出。

不过目前携程并不公布具体的酒店间夜(住几晚*几间房=间夜量)数量,此前虎嗅网有相关文章估算,携程在 2014 年全年售出了 6682 万间夜酒店。如果我们在此基础上做个推算,12 小时的所牵涉的酒店预订量约在 10 万间。

旗下拥有互联网安全测试平台“漏洞盒子”的上海斗象科技 CTO 张天琪向《好奇心日报》介绍说,携程的灾备机制此次未能顺利启动运行,主要是由于要重建整个业务线,并重新对外发布,这样的情况应该是第一次碰到。也有业内人士表示,像这样的情况一旦出现,就算所有代码及数据库的备份都被完整保留,想要快速恢复业务,实际上比重新搭建一个携程网站更困难。

但普通用户并不清楚,他们日常访问和用来预定、做退改签的携程主站,与这些“应用子系统及服务”有什么关系,这也导致了许多人在网站宕机后,重新转向了传统的电话客服模式。

2012 年,携程在上海、南通两地自营的呼叫中心员工就已经超过了 10000 名,到 2014 年,这一数字进一步增长至约 16900 名。如果你昨天致电过携程客服的话,你会感到他们的崩溃状态,“我们的系统正在修复中,您可以先去艺龙预订。”

对于宕机期间仍在不断访问网站、或是通过电话向客服咨询的用户,携程开始选择了将他们引导至近期入股的艺龙网——就在一周前,携程以 4 亿美元的战略投资成为艺龙的最大股东。但艺龙也不能解决大多数用户的问题,在 28 日下午 17 时,艺龙网站也出现了短时宕机,CEO 崔广福当时对外表示,艺龙网站受到了大规模的流量攻击。

根据全球网站排名统计平台 Alexa 的数据,在过去 30 天时间内,艺龙目前在全国所有网站中,流量排名为第 588 位,其中来自携程的流量占到了网站总流量的 7%,仅次于百度和 Google  这两大搜索引擎。

携程公关的不作为,也被认为是各种谣言流传,引起用户恐慌的原因之一。在宕机事故发生 2 小时后,携程方面通过新浪微博发布了第一条情况说明,并予以置顶。但说明本身没有“紧急修复中”的感觉。轻佻的语调也遭到了指责。之后携程安抚客户的方式是“经过紧急排查、携程数据没有丢失,预订数据也保存完整。”但这打消不了用户的疑虑,除了无法正常提交订单、登陆个人账户外,很多用户发现账户内的消费记录、优惠券、积分等数据都被清零。在最终的事故原因声明之前,携程公关途径几乎再无其它信息流出。虽然在事故当天公关部也一直忙到了半夜,但在社交媒体上,它却成了一家在危机事件发生后 6 小时内,都没有任何有效公关反应的公司。

一位携程核心业务部门的工作人员表示,自己所在的部门当天第一时间收到了来自技术部门的通知,称此次宕机会影响到相关的预订、通知等业务,他们立即通知了合作伙伴及供应商,不过当天并未加班。

另一位携程市场部门工作人员表示,因为自己使用的服务器与此次发生事故的服务器并非当天同步,她的全天工作并未受到任何影响。“吃午饭前知道网站出事了,到吃晚饭时还没有恢复而已。周围的同事聊起来的时候都说,运维部门的同事这个月的奖金大概都泡汤了。”

携程的损失也不小。针对这次宕机事故,我们粗略地(并不足够科学)算了一笔账:携程公布的 2014 第二季度财报显示,当季净营收为 18 亿元(同比增长 38%),其中最重要的酒店预订收入为 7.53 亿元(同比增长 47%);而携程 2015 年第一季度在这两项上,分别收获了 46% 和 45% 的同比增长率。

根据上述数据,在携程宕机的 12 小时内,按照平均值(3季度、91天)来算,可能造成的营收损失约为 1133 万元,住宿业务的可能性损失约为 600 万元。

从在纳斯达克上市的携程股价来看,由于此次宕机基本覆盖于美股的非交易及盘前交易时段,虽然期间出现了短时的股价暴跌,但在开市前已基本消除影响,美国东部时间 5 月 28 日开盘时,携程的股价比前一交易日低了 2.7 美元,并维持了全日小幅低位震荡,不过还是造成了全天市值蒸发约 1 亿美元的代价,也波及到了艺龙的股价。

虽然携程最终给出的原由是内部员工误操作。在知乎上那条名为“2015 年 5 月 28 日的携程网宕机事件,可以给同行提供什么经验和教训?”的帖子中,有关网络安全的讨论不在少数。

一位前艺龙信息安全负责人称“携程历来对信息安全并不算重视”,作为中国最大的在线旅行公司,携程在 2014 年 3 月也被漏洞报告平台“乌云网”爆出信用卡泄露事件:由于开发人员检查系统时留下的临时日志未被删除,大量用户的银行卡信息存在泄露风险。

携程的这次信用卡信息泄露事件,实际只是当年全球互联网所面临的网络安全问题的冰山一角:Verizon最新发布的 “2015 数据泄露调查报告”显示,2014 年事件调查中,影响的组织覆盖 95 个国家,其中有 61 个报告了问题,涉及 79790 个安全事件,超过 2000 条确认的数据泄露;500 强企业中超半数曾遭受过黑客攻击,SONY(索尼公司)、APPLE(苹果公司)、JPMORGAN CHASE(摩根大通银行)等机构都曾上榜。

就在前一天傍晚,被市政施工挖断机房光纤的支付宝刚刚成为指责对象:从当天下午 17 点至晚上 19 点 20 分,部分用户发现无法使用支付宝业务,数据显示也出现问题。

服务恢复正常后,支付宝方面表示,由于在系统上采用了“异地双活”的架构,使得这次的事故能够在较短时间内化解。简单来说,这就相当于一架双引擎飞机在出现故障时,只用一个引擎飞了一阵。支付宝 CTO 程立表示,这样的结果仍不能让内部感到满意,在相关技术升级完成后,“理想的目标是要做到让用户无感知。”

今年的网络安全事件其实已经有好几起了。

5 月 11 日,网易宣布其骨干网络遭到攻击,导致其移动应用、游戏无法访问、刷新;

5 月 10 日,陌陌通过新浪微博宣布,由于网络故障,用户暂时无法使用其移动应用;

2 月 6 日,由于访问量骤增,铁路订票网站“12306”发生崩溃,从当日上午 10 点起显示“页面无法打开”,瘫痪持续 1 小时,期间乘客无法订票;

1 月 21 日,全国三分之二的主流网站出现了大面积瘫痪,大量域名访问请求被指向没有响应的一个美国 IP 地址,导致网站无法打开;

1 月 19 日,微信服务器出现短暂瘫痪,期间用户无法收发信息、无法刷新朋友圈、无法登录微信公众平台。

技术对我们生活的渗透已经像空气一样,当它运转不畅的时候,我们才会发现它会多么短暂但却严重的影响我们的生活。

事故虽然已经过去了,但用户的心理阴影可能暂时不会那么快褪去。

点赞

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注