2007年08月23日
スカイプで大規模障害、原因は Windows Update?? | (ニュースの視点) |
16日(欧州時間)、IP電話のスカイプのサービスがシステム障害によりユーザがログインができなくなり、発信や受信、プレゼンス(状態)の確認などができなくなった。
その後、徐々に回復し、二日後に復旧、スカイプ・テクノロジーズ(ルクセンブルク)は18日にサービスの再開を宣言した。
その後、スカイプ・テクノロジーズはマイクロソフトに協力を依頼、調査の結果、直接のきっかけがマイクロソフトが16日に実施した定例的な Windows (/Microsoft) Update にあったことが判明した(20日)。
ただし、今回のアップデート内容がスカイプに悪影響を及ぼしたのではない。
今回のアップデートの結果、多数のPCがほぼ同時期に再起動したが、これによりスカイプのソフトも再起動。スカイプは仕様上、再起動時にはスカイプのサーバに再ログインを行なう。
この結果、短期間にスカイプサーバへのログイン要求が集中したため、システム・リソースに不足をきたしログイン不能となり、ユーザPC側も送受信を出来ない状態に陥ったのだと言う。
スカイプはユーザPC同士が直接通信する(P2P通信)ことでサービスを行なうため、ネットやサーバが高負荷となりにくいと云われているわけだが、それでも通信の開始時にはサーバへログインすることで相手PCのIPアドレスを得なければ通信を開始することが出来ない。
今回は多数のPCが同時に再起動するという、設計上は想定されていなかった事態が、はからずも Windows Update により発生したため、本来は起こりえない(起こり難い)と思われていた短期間にサーバへ多数のログインが集中する状態が発生しサーバの能力を越えてしまって「ソフト」メルトダウン (負荷低下で自然解消)を起こしてしまったようだ。
同様の分散システムであるインターネットの根幹を成すDNS(Domain Name System)でも、NTTのIP電話でNTT内部のDNSが高負荷となってIP電話がつながりにくい状態に陥る事故が昨年来、何度か発生しているが、あの場合はNTT内部ネットのDNS設計の拙さに原因があったとみられる(既報)。
今回は設計上の拙さはなさそうだが、分散システムの設計の難しさ(どこまでの事態を想定すればいいのか)を露呈したとも言える。
Windows Update に限らず、ウィルス対策ソフト等でも、自動更新に設定された場合、多数のPCで同じ時間に更新に入ることが多く、今後はそういった事態まで想定したシステム設計が求められるだけでなく、自動更新を行なう側でも、更新時間を分散するなどの配慮が求められることとなるだろう。
投稿者 shoda T. : 2007年08月23日 23:12
トラックバック
このエントリーのトラックバックURL:
http://shoda.tk/MT/mt-tb.cgi/511
コメント
コメントしてください
名前とメールアドレスは必須です。メールアドレスはブログ上には表示されません。私に届くだけです。 TypeKey ID のサイン・インも必須ではありません。持ってる方だけサイン・インすればいいです。