« UPDATEのIE9にご注意! | トップページ | 超・弾丸国内ツアー(八重洲界隈アンテナショップ) »

2011年7月25日 (月)

事例研究 ドコモの通信障害

6月に発生した、ドコモの携帯の通信障害。

関東を中心に、半日にわたる障害発生で大混乱しました。

後日明らかになった、障害状況とその対応。
システム関連の仕事をしていてもいなくても、“他山の石”として参考にすべき点があります。

実際、トラブルに出会ったとき、どのように対応すべきか。
どういうところに目を向けなければいけないか。
文句を言うのは簡単ですが、自分が解決しなければいけない立場になったとき。

この事例も、大変勉強になりましたので、概要をメモしておきたいと思います。

.。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。.

2011.06.06 AM8:27
・サービス制御装置を構成する機器の故障発生。
 端末の位置情報が正しく更新されず、「圏外」扱いに。
 故障したのは全国に40基あるうちの1基。
 主に関東甲信越を管理していた。

システムには二重の障害対策をとっていた。

①パッケージの二重化
 「パッケージ」とはサービス制御装置のハードモジュール。
 1基のサービス制御装置に8台のパッケージを搭載。
 4台は本番系、4台はホットスタンバイ。
 4台あるのは分散化のため。

②サービス制御装置全体の二重化
 0系:本番系
 1系:待機

1.パッケージ故障
 本来なら故障した1パッケージだけが1系に切り替わるはずだった。

2.すべて1系に切り替え
 0系の中で故障した1パッケージだけが1系に変わるはずだった。
 しかし、0系4台すべてが異常とみなされ、1系に切り替わってしまった。
 実は前夜からソフト更新があり、0系は更新が終わっていた。
 しかし1系はまだだったの、両系のプログラムが異なり、「異常」と認識されてしまった。

3.切り替わり時刻
 AM8:37
 4台のパッケージ処理がすべて1系に代わった。
 通勤時間帯と重なったため、多くの端末が主と共に移動中。
 0系と1系は15分間隔で位置情報を同期させている。
 通常の6~7倍のトラフィックが一気に押し寄せた。

4.業務プログラムの不具合
 位置情報データを登録してから、メモリーを解放するまで時間がかかることはわかっていた。
 しかし高負荷時だけに顕在化する不具合だった。
 そのため位置情報の登録要求の待ち行列が解消されず、輻輳状態に。
 通信規制を実施したため、ドコモの社内連絡さえも滞ってしまった。

5.原因特定ミス
 PM0:46
 0系の修理を終え、1系から0系に再度手動で切り替えた。
 原因は0系の故障なのだから、直った0系に戻せば解決すると考えた。

6.現状把握ミス
 しかし、ここでまた位置情報の登録要求が一気に押し寄せた。
 利用者の移動は少なかったが、朝からつながりにくかったので多くの人が何度もかけ直していた。
 実は発信時にも位置情報は更新されるのだが、このような状況を把握していなかった。

 ここでサービス制御装置の切り替えを自動判別する「切り替えソフトウエア」を止めた。
 システムを再起動させて回復を図ろうと考えたが、「再起動」を障害発生と認識してしまう恐れがあり、これを避けるためにとった対策だった。

7.切り替えソフトの不具合
 
 システムを再起動。
 緊急対応を進めながら通信規制を継続。
 18:30頃から安定してきたので、「切り替えソフト」を起動した。
 そこで、本来読まないはずの、“切り替えソフトを止めていた間の0系のログ”を読み込んでしまった。
 そのため、再び自動的に1系に切り替わってしまった。
 実は、切り替えソフトを止めてから再起動するのは初めてだった。
 

 18:52
 帰宅時間と重なり、またもや位置情報の更新が相次ぎ、輻輳状態に。
 再度通信規制をかけ、位置情報の更新要求の処理を待った。

 21:36
 ようやく正常化。

.。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。..。.:**:.。.

いやぁ、担当者さん、この日は長かったでしょうね。
心中お察しします。

|

« UPDATEのIE9にご注意! | トップページ | 超・弾丸国内ツアー(八重洲界隈アンテナショップ) »

パソコン・インターネット」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック


この記事へのトラックバック一覧です: 事例研究 ドコモの通信障害:

« UPDATEのIE9にご注意! | トップページ | 超・弾丸国内ツアー(八重洲界隈アンテナショップ) »