ネットが死にかけたAmazon S3の障害は1個の打ちまつがいが原因

  • カテゴリー:
  • News

ネットが死にかけたAmazon S3の障害は1個の打ちまつがいが原因

うっかりタイポでサイトが大木のようにあちこちでドーン、ドーンと15万件(eWeek推計)も倒れて1億5000万ドル(約171億円、CIO推定被害額)がパーになる気分とはいかなるものなのか…。

2月最終日にネットを半壊させたアマゾン・ウェブ・サービス(AWS)S3の4時間に渡る障害は、あるひとりのエンジニアのタイポが原因だったことがわかりました。

【もっと読む】 Amazon AWSのエラーでインターネット死にかける

Amazonは公式サイトでこう事実経過を説明しています。

太平洋標準時間9:37AM、管理権限を持つS3チームの社員が、既定の操作方法に従い、S3決済処理で使用するS3サブシステムのひとつのサーバーを少数削除するコマンドを実行した。あいにくこのとき入力コマンドがひとつ間違って入力されたため、削除するつもりもないサーバーまで大量に削除されてしまった。

どびょ~ん。人間だれしも間違いはあります。コーラのボタン押したつもりがペプシ出てくるとか。でもうっかりキー打ち間違えただけでサイトが15万件倒れて1億5000万ドル(約171億円)がパーになるんだからエンジニアは心臓に毛が生えてないと務まりませんわ。なんせ今や全世界のインターネットの3分の1のトラフィックがココ通ってるぐらいですからねぇ…。

ネットが死にかけたAmazon S3の障害は1個の打ちまつがいが原因2

世界のクラウドインフラ市場の31%はAmazonが占める(右の数字は前年比。2016年8月時点・Synergy Research Group調べ

AWSはAmazonのドル箱です。昨年暮れのForbesの推計によれば、Amazonの企業価値の35%はAWSが占めるのだといい、まさに今のAmazonは「裏口でコカインを売る本屋のような存在」(ZDNET)。クラウド市場ではMicrosoft、IBM、Googleも近年追い上げてはいますが、3倍もの開きがあり、2006年からのAmazonの独走態勢はしばらく続くと言われています。

ここ10年余り(ジェフ・ベゾスはよくこの時期を100年前の電気黎明期にたとえている)、Amazonはクラウド市場の王者に君臨し続け、廉価なホスティングでスタートアップを支えてきました。

要は、サービス料金を利用に完全に連動させたのだ。このアプローチなら、小さなスタートアップのデベロッパーは使ったぶんだけインフラサポートにお金を払えばよくて、ニーズの拡大に合わせて足場を拡大していける。AWSのお陰でAirbnbやSlack(2社ともAWS利用顧客)のようなサービスも初期費用をむちゃくちゃ低く抑え、急成長の余力を十分確保できたのだ。(The AtlanticのIngrid Burrington記者、1年前の記事より)

しっかしここまで大きくなると責任重大ですよね。公式からはクラウド顧客数や被害規模の発表はないのですが、CIPが伝えたApicaの推計によると、あの日は54の大手オンラインショップがダウンしたそうですから…。米Gizmodo(AWS顧客)もえんらい騒ぎでした。

AWS専用サーバーの多くはヴァージニア州北部に集中しています。このいわゆる「US-EAST-1」は、ネットのトラフィックが最も集中する地域のひとつ。ここが今回の障害の震源となりました。

Amazonのダウンは、Microsoft、IBM、Googleのゲイン。きっと今ごろ大喜びしているんじゃないでしょうか。「やっぱりAWSの耐久性は100%じゃなかった」って、これで胸を張って言えますからね。競争激化で値段が下がれば雨降って地固まる、と言えないこともないですけどね。

ちなみに米GizmodoからのAmazonへの取材には、こんな初期の回答が返ってきただけなので、AWS公式サイトの説明とは異なるのですが…。

US-EAST-1のS3が通常より高いエラー発生率に見舞われており、さまざまなAWSサービスに影響を与えています。S3の復旧に全力を挙げています。大元の原因は特定できたと考えており、この問題の修正になると思われる対策の導入を進めているところです。

タイポひとつでここまで大きくなること自体が一番の問題ですよね。AWS自体が急激な成長に合わせた構造になっていなかったため、システム再起動に思った以上に時間がかかってしまったと、AWS公式サイトの説明にはあります。その辺のことをeWeekがこう噛み砕いて書いています。

システムを小さなセグメントに分割しておけばもっと早く再起動できただろうに、S3の成長ペースがAmazonの対応能力を上回ってしまった。ストレージのサービス障害に加え、ダウンしたS3サービスにService Health Dashboardのような社内システムまでもが依存しているという事実が状況をさらに悪化させた。

結果、基幹ウェブアプリがクラッシュしてアクセス不能になっているのに、ダッシュボードからはAWS利用者に「システムは正常に運転中」と表示されてしまったのだ。デバッグするつもりで打ったコマンドのタイポが、雪だるま式に障害を大きくし、S3サービスを何時間もオフラインにしてしまったのである。

リスクを分散する潮時なのかも。

米ネットを襲う未曾有のDDoS。アンナ先輩が野に放った「Mirai」という名の魔物

image: Gizmodo US
source: Amazon, Forbes, The Atlantic, ZDNET, CIO, eWeek, Synergy Research Group

Adam Clark Estes - Gizmodo US[原文
(satomi)

あわせて読みたい

    powered by CXENSE