区快洞察消息,Coinbase 发布「11 月 16 日网站和移动应用短时出现无法加载的情况」的事后分析报告。报告指出,「在美东时间 11 月 16 日 15 点 32 分,交易所的交易处理请求流量急剧降至零,15 点 38 分,启动事件报告流程,随后便怀疑,这可能与我们正在运行的、用于更新服务之间的内部 TLS (传输层安全协议)证书的迁移有关。鉴于此,我们开始准备回滚最重要和关键的服务。由于开始重新部署服务,无法完全重新启动。我们怀疑存在连通性问题,因为我们尚未完全回滚 TLS 迁移,并且仍在进行一些服务。在查看相关指标、日志和跟踪记录后发现,这很可能是一个惊群效应问题。对此,我们采取了两个措施,一是暂时取消连接,阻止核心后端服务流量,并使之能够充分重新部署;二是增加了用于此服务的计算机的数量。17 点 05 分,几乎所有服务都已恢复。」另外,Coinbase 已经编写了代码,以扫描 700 多个负载均衡器,来查看基础结构编码与运行配置之间是否存在不匹配的情况。区快洞察注,惊群效应(thundering herd)是指多进程在同时阻塞等待同一个事件的时候(休眠状态),如果等待的这个事件发生,那么就会唤醒等待的所有进程,但是最终却只能有一个进程获得这个时间的控制权,对该事件进行处理,而其他进程获取控制权失败,只能重新进入休眠状态。