如果过去几周感觉天空正在下降,那么你并不孤单。
在过去一个月中,有几个主要的互联网中断影响了全世界数百万用户。网站收缩,服务中断,图片无法加载,导致信息停止,日历和电子邮件一次无法使用数小时。
不相信任何单一事件将停电联系在一起,更不用说所有相关人员都有可怕的运气。
它始于6月2日 - 一个安静的星期天 - 大多数人都没有工作。一个庞大的谷歌云停运拿出服务对于大多数在东海岸。许多第三方网站,如Discord,Snap和Vimeo,以及谷歌自己的一些服务,如Gmail和Nest,都受到了影响。
一个例行但有缺陷的配置变化是罪魁祸首。这个问题本来是针对几个系统而被隔离的,但是一个错误导致该问题在整个Google服务器中级联,导致整个云端的网络锁定超过三个小时。
6月24日,由于网络路由泄漏,Cloudflare在长达数小时的停机期间下降了15%的全球流量。这家网络巨头很快将Verizon(TechCrunch的母公司)归咎于fustercluck。由于边境网关协议的固有缺陷 - 它管理互联网流量如何在互联网上路由--Verizon有效地将一条“整条高速公路沿着社区街道传送出去”,Cloudflare在其验尸博客中表示。“这应该永远不会发生,因为Verizon永远不应该将这些路由转发到互联网的其他部分。”
亚马逊,Linode和依赖Cloudflare基础设施的其他主要公司也陷入停顿。
一周之后,在7月2日,Cloudflare遭遇了第二次中断 - 这次是由于内部代码推送造成的。在一篇博客文章中,Cloudflare的首席技术官John Graham-Cumming将其半小时的停机归咎于其网络防火墙中的一些“正则表达式”代码,旨在防止其客户网站受到基于JavaScript的攻击。但正则表达式代码很糟糕,导致其处理器在全球范围内飙升,有效地削弱了整个服务 - 以及任何依赖它的网站。然而,代码回滚很快,互联网很快恢复正常。
由于东海岸地区的光纤电缆受到物理损坏,谷歌7月2日遭遇了另一次停电,因此不想外出Cloudflare。这次中断持续了大约6个小时,尽管谷歌表示,通过其他数据中心路由流量可以缓解大部分中断。
然后,Facebook及其整个服务组合 - 包括WhatsApp和Instagram - 在7月3日期间偶然发现了8个小时,因为它的共享内容交付网络受到停机时间的影响。Facebook在Twitter上采取了不少的措施来确认停电。服务中的图像和视频无法加载,只留下令人毛骨悚然的机器学习生成的每张照片的描述。
大约在同一时间,Twitter也不得不面对音乐,在推文中承认直接消息被打破了。有些人抱怨那些不存在的“幽灵”信息。有些人根本没有得到新消息的通知。
苹果轮到了。7月4日,iCloud遭遇了全国范围的三小时停电,几乎影响了其基于云的服务的每一部分 - 来自App Store,Apple ID,Apple Pay和Apple TV。在某些情况下,用户无法访问基于云的电子邮件或照片。
根据互联网监控公司ThousandEyes的说法,停电的原因是另一个边境网关协议问题 - 类似于Cloudflare与Verizon的混战。
对很多人来说,这是一个艰难的月份。指向Cloudflare和Google解释发生的事情和原因。苹果,Facebook和Twitter都不那么容易,所有这些都几乎没有承认他们的问题。
我们可以学到什么?首先,互联网提供商需要在路由过滤器方面做得更好,其次,或许直接在生产系统上运行新代码并不是一个好主意。
过去几周对云计算并不好看,对依赖主机巨头的许多人(如亚马逊,谷歌等)充满了信心。虽然有些人很快 - 并且不负责任地并且最终错误地 - 结束了这次中断是因为黑客或威胁行为者发起了分布式拒绝服务攻击,但总是认为内部错误应该归咎于此更为安全。
但对于绝大多数消费者和企业而言,与大多数在内部运行自己的服务器的人相比,云仍然具有更强的弹性- 并且能够更好地处理用户安全性。
简单的教训是不要将所有鸡蛋放在一个篮子里 - 或者将您的数据放在一个云中。但正如本月所示,有时你可能只是简单不走运。