昨日の世界的なインターネット障害から世界が学んだこと。
11月18日、世界は近年で最も破壊的なインターネットの障害の一つを目の当たりにしました。主要なプラットフォーム、ソーシャルネットワークからAIツール、音楽サービス、デザインプラットフォーム、さらにはステータスダッシュボードに至るまで、短時間オフラインになりました。
根本的な原因は、数分以内に世界中のインターネットに波及した不具合のあるCloudflareのアップデートに起因していました。
この出来事は、今日のデジタルエコシステムがどれほど深く相互接続されているかを思い出させるものでした。
実際に何が起こったのか?
Cloudflareのボット管理の更新内の構成ファイルが、予期せず意図されたサイズを大幅に超えて拡張されました。このオーバーサイズのファイルがCloudflareのグローバルネットワーク全体に同期されたとき、重要なシステムが過負荷になり、広範囲なHTTP 500エラーが発生しました。ウェブサイトは技術的には「ダウン」していませんでしたが、ユーザーは単にそれらにアクセスできませんでした。
Cloudflareは何百万ものウェブサイトとそのユーザーの間に存在するため、過負荷が連鎖反応を引き起こしました。DNSクエリが減少し、APIコールが失敗し、Cloudflare自身のダッシュボードさえも読み込むのに苦労しました。X、
原文表示