昨天全球互联网中断,世界学到了什么。



在11月18日,世界目睹了近年来最具破坏性的互联网中断之一。主要平台,从社交网络到人工智能工具、音乐服务、设计平台,甚至状态仪表板,都短暂地离线。

根本原因追溯到一次故障的Cloudflare更新,这一更新在几分钟内波及全球互联网。

这一事件清楚地提醒我们,今天的数字生态系统已变得多么深度互联。

到底发生了什么?

Cloudflare 的 Bot Management 更新中的一个配置文件意外地超出了其预期的大小。当这个超大的文件在 Cloudflare 的全球网络中同步时,它超载了关键系统并触发了广泛的 HTTP 500 错误。网站在技术上并没有 "宕机",但是用户根本无法访问它们。

由于Cloudflare位于数百万个网站与用户之间,过载造成了连锁反应。DNS查询下降,API调用失败,甚至Cloudflare自己的仪表板也难以加载。像X、ChatGPT、Spotify和Canva这样的大型平台立即感受到了影响。

重要的是,这并不是一次网络攻击。Cloudflare 确认此次中断是内部意外造成的,强调了在互联网规模下运营的复杂性。

Cloudflare是如何修复它的?

一旦确定问题,工程师们回滚了有缺陷的更新,将流量重新引导以稳定过载区域,并逐步恢复服务——CDN 节点、DNS 解析器、WARP、分析等。逐步恢复确保了在恢复期间的稳定性。

接下来会发生什么?

Cloudflare正在实施新的保护措施,以防止类似事件的发生:

对文件大小和配置的限制更严格。

全球推广前的多层测试。

改进的内部监测和预警系统。

更强的冗余,以防止故障级联。

这些措施旨在增强全球互联网的韧性。

这有什么重要性?

此次故障突显了集中式基础设施的强大与脆弱。然而,结果令人宽慰:
问题很快被识别出来,这不是安全漏洞,预防措施已经在进行中。

今天的互联网更加具有韧性,并继续作为我们数字世界的支柱而发展。

希望你觉得它有益 🙏。
#BNB
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)