« 64bits Windowsで、32bitsアプリからレジストリにアクセスする | トップ | パソコンの販売台数、二ヶ月連続で増加。 »

2011年06月15日

NTTドコモの通信障害はソフト更新に起因・・・(ニュースの視点)

14日、NTTドコモは6日に発生したネットワーク障害の原因および今後の対策について発表した。
障害は約13時間におよび、関東甲信越地域で契約した172万人が通話やパケット通信できない状況に陥った。障害はドコモユーザだけでなく、ナンバーポータビリティ制度(MNP)で他社に移ったユーザも着信出来ない現象が発生した。

障害が発生したのは「サービス制御装置」と呼ぶ携帯端末の位置情報を管理するシステムで、対象となった端末の位置が把握出来なくなったため、他の電話からの着信を最寄の基地局に受け渡せなくなった。
MNPで移転したユーザも、番号そのものはドコモの管理下にあり、ドコモから移転先へ受け渡すが、MNP対象の番号かどうかの情報も同じ制御装置に格納されているため、影響を受けた。

NTTドコモによれば、3日に機能追加のために制御装置のソフトウェアの更新を行ったが、その際、本番テストを兼ねて40台ある制御装置のうち一台だけを更新。6日夕方にはテストを終え、残りの39台にも実施する予定だったが、6日朝8時27分にハードウェア故障が発生。
ソフトに不具合が見つかった場合は更新前の状態に戻す設計になっていたため、テストそのものは正常だったが、ハード故障を検知しため、設計通りに以前の状態に戻す処理を行った。これがたまたま通勤時間帯に重なったことなど(電車などで移動中のユーザが多く、位置情報の更新が多い)から処理に遅延が発生した。

このサービス制御装置は二重化されており、所謂ホットスタンバイ構成になっている。そのため、本番系が処理に時間がかかっていることを待機系が検知して、待機系に切り替わってしまった。
ところが切り替わった場合には、位置変更のない端末の情報もすべて強制的に更新する仕様になっているため、さらに負荷が増え輻輳(ふくそう)状態(物が1ヶ所に集中し混雑する様態)に陥ってしまった。

午前9時26分には通信規制を実施したがあまり効果はなかった。「待機系のシステムになんらかの不具合があるのでは?」と考えたドコモは、正常に稼働していた本番系への切り替えを検討、午後0時46分に本番系への切り替えを実施した。
しかしこれにより再び大量の位置情報更新が発生し、輻輳状態が続いた。

さらに通信規制を強化し、待機系への切替判定ソフトの機能もオフにし、負荷状態を見ながら、徐々に規制を解除していった。午後6時52分になってようやく通常状態に戻すことが出来たという。

ところが・・・時間に注目してほしい(苦笑)
機能復活した本番系と待機系の切替判定ソフトが、オフにしていた期間の履歴を参照し、処理遅延など不安定な状態が続いたと判断。ここで再び

待機系へ切替 → 大量の位置情報更新 → 輻輳状態

というループに突入したのだ。
結局、再び通信規制を行い・・・午後9時36分になってようやく規制解除を行って正常状態に戻した。

投稿者 shoda T. : 2011年06月15日 12:10

トラックバック

このエントリーのトラックバックURL:
http://shoda.tk/MT/mt-tb.cgi/823

コメント

コメントしてください

名前とメールアドレスは必須です。メールアドレスはブログ上には表示されません。私に届くだけです。 TypeKey ID のサイン・インも必須ではありません。持ってる方だけサイン・インすればいいです。




保存しますか?

(書式を変更するような一部のHTMLタグを使うことができます)