谷歌分析宕机原因：SRE超载系统致谷歌云存储错误率提高

时间：2019-03-15 20:39:57

关键字： facebook 宕机谷歌

手机看文章

扫描二维码
随时随地手机看文章

[导读]谷歌的分析报告指出，本月11日，Google SRE发出警报内部blob服务使用的元数据的存储资源显著增加;3 月 12 日，为了减少资源使用，SRE进行了配置更改，其副作用是使系统的关键部分超载以查找blob数据的位置，而增加的负载最终导致级联故障。

本月12日，全球各地的用户反馈谷歌旗下Gmail、YouTube、Google Drive等服务发生宕机，与此同时，Facebook旗下的WhatsApp、Instagram也在14日发生了大规模宕机事故。尽管两起宕机事故看似非常接近，但实际上，这两起事故本身不具备关联性。

根据谷歌方面提供的事件报告，本次谷歌相关发生大规模宕机是因为谷歌内部的blob(大型数据对象)存储服务经历了4小时10分钟的中断。受此影响，包括美洲、欧洲和亚洲的部分地区都受到了此次宕机时间影响。谷歌的分析报告指出，本月11日，Google SRE发出警报内部blob服务使用的元数据的存储资源显著增加;3 月 12 日，为了减少资源使用，SRE进行了配置更改，其副作用是使系统的关键部分超载以查找blob数据的位置，而增加的负载最终导致级联故障。

具体来看，谷歌内部blob存储服务从当地时间12日18:40到22:50期间错误率提高，平均错误率为 20%，事件发生时错误率为31%，用户可见的谷歌服务，包括使用blob存储服务的Gmail、照片和谷歌云硬盘错误率也提高了，如果没有这些服务中内置的缓存和冗余机制极大地降低了用户影响，那么后果会更加严重。

谷歌表示，非谷歌云平台服务受到的影响将有单独的事件报告，对于受到此次事件影响的用户，谷歌表示歉意，并表示将采取积极的措施防止此类事件的发生。