Facebookの障害とその対応

Facebookの障害についてブログに掲載されていたため、どのような問題だったのか見ていきます。

Facebookの障害とその対応

現地時刻 2021年10月4日の16時44分からFacebookやInstagram等のFacebook社が運営するサービスにおいて障害が発生し、およそ6時間で障害は復旧しました。

この障害について、facebookのblogにて簡単な説明がなされています。

Update about the October 4th outage
To those around the world who depend on us, we are sorry for the inconvenience caused by today’s outage across our platforms.

記事の原因について言及されている部分を見ていきます。

https://engineering.fb.com/2021/10/04/networking-traffic/outage/
私たちのエンジニアリングチームは、データセンター間のネットワークトラフィックを調整するバックボーンルータの設定変更により、この通信を遮断する問題が発生したことを知りました。このネットワークトラフィックの途絶は、データセンターの通信手段にも連鎖的に影響を及ぼし、サービスが停止しました。

”データセンター間のネットワークトラフィック”とあるため、おそらくBGPではないかと思われます。

*BGPとは自律システム(AS)間で経路情報を交換するために設計されたルーティングプロトコル。一般ユーザーはほぼ意識することが無いものだが、インターネットを支えている技術のひとつ。
Border Gateway Protocol - Wikipedia
MEMO

この記事ではバックボーンルーターの具体的に何の設定であったかの記載はされていませんが、他社記事ではBGPもしくは、それが起因となりDNSが利用できなくなったとの報道もあります。

https://engineering.fb.com/2021/10/04/networking-traffic/outage/
現在、私たちのサービスはオンラインに戻っており、通常のオペレーションに戻すべく積極的に取り組んでいます。今回の障害の背後には悪意のある行為はなく、根本的な原因は当社側の誤った設定変更によるものであることを明確にしておきたいと思います。また、この停止時間の結果、ユーザーのデータが漏洩したという証拠はありません。(2021年10月5日、最新の情報に更新しました。)

またCNBCの報道によるとFacebook社の社員も業務用のシステムにログインする事が出来なかったとしており影響範囲はかなり深刻でした。

どのように対応したのか?

いくつかのメディアでは従業員のカードキーが動作しなくなり、物理的にデータセンターまで人を派遣し設定を行ったとし報道しています。

Facebookに依存しているサービス

日本ではFacebook離れがすすんでいるとの報道も毎年のようになされていますが、Facebookはいくつかのキーとなるサービスを運営しており Whats app, Instagram, Messengerなどのサービスはトータルで35億人ものユーザーを抱える巨大なものになります。

今回のFacebook自体にアクセスできなくなり、Facebook,Instagram等の利用不可となり単純に不便だったという問題以外にも、Facebookによってユーザーログイン等を提供しているサービスが大きな影響を受けました。

例えばアプリ等で、Facebookでログインをし利用している場合はFacebookへのアクセスが完全に途絶えためアプリにログインすることができない問題が発生しました。

まとめ

障害は設定ミス
今回の6時間に渡る障害は、設定変更ミスによるものとされています。
規模と内容は過去最大規模
ネットワークの問題により全面的にアクセスが不可能となる過去最大規模の障害でした。

記事の内容は間違いが無いように気をつけていますが、私の認識違いや、ミスなどにより間違っている可能性もあります。もし発見された場合はお問い合わせフォームよりご連絡頂けると幸いです。