事例研究 ドコモの通信障害
6月に発生した、ドコモの携帯の通信障害。
関東を中心に、半日にわたる障害発生で大混乱しました。
後日明らかになった、障害状況とその対応。
システム関連の仕事をしていてもいなくても、“他山の石”として参考にすべき点があります。
実際、トラブルに出会ったとき、どのように対応すべきか。
どういうところに目を向けなければいけないか。
文句を言うのは簡単ですが、自分が解決しなければいけない立場になったとき。
この事例も、大変勉強になりましたので、概要をメモしておきたいと思います。
.。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。.
2011.06.06 AM8:27
・サービス制御装置を構成する機器の故障発生。
端末の位置情報が正しく更新されず、「圏外」扱いに。
故障したのは全国に40基あるうちの1基。
主に関東甲信越を管理していた。
システムには二重の障害対策をとっていた。
①パッケージの二重化
「パッケージ」とはサービス制御装置のハードモジュール。
1基のサービス制御装置に8台のパッケージを搭載。
4台は本番系、4台はホットスタンバイ。
4台あるのは分散化のため。
②サービス制御装置全体の二重化
0系:本番系
1系:待機
1.パッケージ故障
本来なら故障した1パッケージだけが1系に切り替わるはずだった。
2.すべて1系に切り替え
0系の中で故障した1パッケージだけが1系に変わるはずだった。
しかし、0系4台すべてが異常とみなされ、1系に切り替わってしまった。
実は前夜からソフト更新があり、0系は更新が終わっていた。
しかし1系はまだだったの、両系のプログラムが異なり、「異常」と認識されてしまった。
3.切り替わり時刻
AM8:37
4台のパッケージ処理がすべて1系に代わった。
通勤時間帯と重なったため、多くの端末が主と共に移動中。
0系と1系は15分間隔で位置情報を同期させている。
通常の6~7倍のトラフィックが一気に押し寄せた。
4.業務プログラムの不具合
位置情報データを登録してから、メモリーを解放するまで時間がかかることはわかっていた。
しかし高負荷時だけに顕在化する不具合だった。
そのため位置情報の登録要求の待ち行列が解消されず、輻輳状態に。
通信規制を実施したため、ドコモの社内連絡さえも滞ってしまった。
5.原因特定ミス
PM0:46
0系の修理を終え、1系から0系に再度手動で切り替えた。
原因は0系の故障なのだから、直った0系に戻せば解決すると考えた。
6.現状把握ミス
しかし、ここでまた位置情報の登録要求が一気に押し寄せた。
利用者の移動は少なかったが、朝からつながりにくかったので多くの人が何度もかけ直していた。
実は発信時にも位置情報は更新されるのだが、このような状況を把握していなかった。
ここでサービス制御装置の切り替えを自動判別する「切り替えソフトウエア」を止めた。
システムを再起動させて回復を図ろうと考えたが、「再起動」を障害発生と認識してしまう恐れがあり、これを避けるためにとった対策だった。
7.切り替えソフトの不具合
システムを再起動。
緊急対応を進めながら通信規制を継続。
18:30頃から安定してきたので、「切り替えソフト」を起動した。
そこで、本来読まないはずの、“切り替えソフトを止めていた間の0系のログ”を読み込んでしまった。
そのため、再び自動的に1系に切り替わってしまった。
実は、切り替えソフトを止めてから再起動するのは初めてだった。
18:52
帰宅時間と重なり、またもや位置情報の更新が相次ぎ、輻輳状態に。
再度通信規制をかけ、位置情報の更新要求の処理を待った。
21:36
ようやく正常化。
.。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。.
いやぁ、担当者さん、この日は長かったでしょうね。
心中お察しします。
| 固定リンク
「パソコン・インターネット」カテゴリの記事
- FLASHと「ルーのうた」(2017.07.08)
- ツイッター 期間指定検索(2016.02.20)
- 「システムの復元」ができない 0x8007007B(2014.05.14)
- NASの名前変更(2013.10.14)
コメント