谷歌将上周的故障归咎于其全球身份验证系统中的一个错误,该错误影响了Gmail,日历,YouTube,Meet和其他多项Google服务。
上周一中断了47分钟,这严重影响了全球工作场所和学校的运营,这是由支持Google User ID Service的自动配额管理系统中的一个错误引起的。
Google在根本原因事件报告中解释说,Google用户ID服务为每个帐户维护一个唯一的标识符,并处理OAuth令牌和cookie的身份验证凭据。此帐户数据存储在分布式数据库中,该数据库使用Paxos协议协调更新。
出于安全原因,该服务被编程为在检测到过时的数据时拒绝请求。
谷歌表示,其用于管理分配给服务的各种资源配额的自动化工具之一包含一个错误,该错误导致身份验证结果出错,从而导致服务中断。
“作为将用户ID服务持续迁移到新配额系统的一部分,10月份进行了更改,以在新配额系统中注册用户ID服务,但先前配额系统的某些部分保留了下来,但报告有误用户ID服务的使用情况为0。执行配额限制的现有宽限期延迟了影响,该影响最终终止,触发了自动配额系统减少了用户ID服务允许的配额并触发了此事件。”
谷歌补充说: “现有的安全检查可以防止许多意外的配额更改,但当时它们并未涵盖单个服务的零报告负载情况。”
问题“随着新的配额生效,立即得到了解决。” 在事件最严重的时候,Google无法验证用户请求是否已通过身份验证,该公司确认几乎所有经过身份验证的流量都出现了5xx错误。
该公司表示:“大多数经过身份验证的服务都受到了类似的控制平面影响:所有Google Cloud Platform以及Google Workspace API和控制台的错误率提高了。