Facebookの障害とその対応
現地時刻 2021年10月4日の16時44分からFacebookやInstagram等のFacebook社が運営するサービスにおいて障害が発生し、およそ6時間で障害は復旧しました。
この障害について、facebookのblogにて簡単な説明がなされています。
記事の原因について言及されている部分を見ていきます。
私たちのエンジニアリングチームは、データセンター間のネットワークトラフィックを調整するバックボーンルータの設定変更により、この通信を遮断する問題が発生したことを知りました。このネットワークトラフィックの途絶は、データセンターの通信手段にも連鎖的に影響を及ぼし、サービスが停止しました。
”データセンター間のネットワークトラフィック”とあるため、おそらくBGPではないかと思われます。
*BGPとは自律システム(AS)間で経路情報を交換するために設計されたルーティングプロトコル。一般ユーザーはほぼ意識することが無いものだが、インターネットを支えている技術のひとつ。この記事ではバックボーンルーターの具体的に何の設定であったかの記載はされていませんが、他社記事ではBGPもしくは、それが起因となりDNSが利用できなくなったとの報道もあります。
現在、私たちのサービスはオンラインに戻っており、通常のオペレーションに戻すべく積極的に取り組んでいます。今回の障害の背後には悪意のある行為はなく、根本的な原因は当社側の誤った設定変更によるものであることを明確にしておきたいと思います。また、この停止時間の結果、ユーザーのデータが漏洩したという証拠はありません。(2021年10月5日、最新の情報に更新しました。)
またCNBCの報道によるとFacebook社の社員も業務用のシステムにログインする事が出来なかったとしており影響範囲はかなり深刻でした。
どのように対応したのか?
いくつかのメディアでは従業員のカードキーが動作しなくなり、物理的にデータセンターまで人を派遣し設定を行ったとし報道しています。
Facebookに依存しているサービス
日本ではFacebook離れがすすんでいるとの報道も毎年のようになされていますが、Facebookはいくつかのキーとなるサービスを運営しており Whats app, Instagram, Messengerなどのサービスはトータルで35億人ものユーザーを抱える巨大なものになります。
今回のFacebook自体にアクセスできなくなり、Facebook,Instagram等の利用不可となり単純に不便だったという問題以外にも、Facebookによってユーザーログイン等を提供しているサービスが大きな影響を受けました。
例えばアプリ等で、Facebookでログインをし利用している場合はFacebookへのアクセスが完全に途絶えためアプリにログインすることができない問題が発生しました。