米アマゾンのクラウド「アマゾン・ウェブ・サービス(AWS)」で一時障害 各社のサービスに影響

米アマゾンのクラウドで一時障害 各社のサービスに影響

米アマゾン・ドット・コムのクラウド事業「アマゾン・ウェブ・サービス(AWS)」で20日、一時障害が発生し、クラウドを利用している各社のサービスが使えなくなった。

 影響は日本を含め世界的に広がった。

 アマゾンによると、米東部時間の午前3時すぎから米国内でエラーや遅延が起き始めた。AWSのクラウドは、世界各国の企業にサーバーやストレージを提供し、数百万に上るウェブサイトやオンライン上のサービスを支えている。

 報道によると、障害で米アップルの各種アプリや銀行、任天堂のゲームなどが影響を受けた。アマゾンの通販サイトや音声アシスタント「アレクサ」にも不具合が生じた。英国の税務当局のウェブサイトでも問題が確認された。

 同7時ごろまでに障害はほぼ復旧したが、アマゾンは対応を続けていると説明した。

無印良品やロフトもネット販売中止 「アスクル」にランサム攻撃

販大手のアスクルは19日、身代金要求型ウイルス「ランサムウエア」への感染によるシステム障害が発生し、受注や出荷業務を停止したと発表した。サイバー攻撃を受けたという。

 アスクルによると、システム障害は19日午前に発生し、法人向けの「ASKUL」や個人向けの「LOHACO」で受注・出荷業務を停止した。個人情報や顧客データの流出などを含めた影響を調査している。

 注文を受けた出荷前の商品はキャンセル扱いとする。アスクルは「一刻も早いシステムの復旧に向け対応している。復旧のめどが立ち次第、改めてお知らせする」としている。

 一方、良品計画も「無印良品」のインターネットストアで受注・出荷業務を停止したと発表した。19日午後9時からサイトの閲覧や購入などができなくなっている。再開時期は未定。サイト停止前に受注した商品も配送が遅れる可能性があるという。

 無印良品のネットストアはアスクル子会社に配送の一部を委託しているため、今回のシステム障害の影響が及んだという。良品計画は「復旧に向けてアスクルと連携して対応していく」としている。

 実店舗への商品供給に影響はなく、営業は平常通り。24日から予定している、会員を対象に購入金額の10%を割り引く「無印良品週間」は実店舗のみ実施し、ネットストアは見送る。

 また、雑貨店のロフト(東京)も20日、ネット販売を停止したと発表。百貨店のそごう・西武(同)もネット販売を一部停止した。いずれも無印良品と同じくアスクル子会社に配送を委託しており、影響が出た。

 ランサムウエアを巡っては9月、アサヒグループホールディングスも被害に遭い、現在も電話で受注して手作業でデータを処理するなど影響が拡大している。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏

アマゾンのクラウドサービス、大規模障害から「復旧」 SNSや銀行アプリなどに影響

米アマゾンのクラウドサービス「アマゾン・ウェブ・サービス(AWS)」で20日、大規模な障害が発生し、世界最大級のウェブサイトの多くが接続不能となった。アマゾンは同日夜、この障害を解消したと発表した。

アマゾンによると、スナップチャットのようなソーシャルメディア・プラットフォームや、ロイズ銀行やハリファックス銀行といった金融機関を含む1000以上のアプリやウェブサイトが、AWSの中枢機能に発生した問題の影響を受けたという。

障害監視サービス「ダウンディテクター」は、20日の障害発生中、世界中からの問題報告件数が1100万件を超えたと明らかにしている。

専門家らは今回の障害について、多くの企業が単一かつ支配的なプロバイダーに依存していることの危険性を浮き彫りにしたと指摘している。

英サリー大学のアラン・ウッドワード教授は、「今回の事例が浮き彫りにしたのは、われわれのインフラがいかに相互依存的であるかという点だ」と述べた。

「非常に多くのオンラインサービスが、物理的なインフラを第三者に依存している。今回の事例は、そうした第三者の中でも最大規模のプロバイダーにおいてさえ、問題が発生する可能性を示している」

「小さなミス、しばしば人為的なものが、広範かつ重大な影響を及ぼす可能性がある」

AWSの障害は、日本時間の20日午後3時ごろに始まったとみられ、複数のプラットフォームへのアクセスに関する問題が、ユーザーから報告され始めた。

対象には、「フォートナイト」のような大規模なオンラインゲームから、語学学習アプリ「デュオリンゴ」に至るまで、幅広い種類のサイトやサービスが含まれていた。

ダウンディテクターはBBCに対し、わずか数時間で500件のサイトに関する報告が400万件以上寄せられたと説明。これは通常の平日の全体件数の2倍以上だという。

その後、掲示板サイト「レディット」やロイズ銀行など、さらなるサービスが復旧を試みる中で、報告件数は1100万件を超えてピークに達したと、同サービスは明らかにしている。

アマゾンは、日本時間21日午前7時ごろ、「多くの影響を受けたサービスが復旧した」と発表。しかし根本的な問題に対処するためには、自社システムの一部に制限をかけなければならなかったとした。

仏ノートルダム大学のマイク・チャップル教授(情報技術)によると、最初の障害の後に、新たな「連鎖的な障害」が発生した可能性があるという。

「これは、大規模な停電が起きたときのようなものだ」と、チャップル氏は述べた。「作業員が復旧に取りかかると、電力が何度か戻ったり消えたりすることがある。しかし、それは『症状』に対処しただけで、『根本原因』には対処していない可能性がある」

■何が起こったのか

アマゾンは、20日に発生した障害の原因について、詳細を明らかにしておらず、これに関する公式声明も出していない。

同社は、サービス状況を伝えるウェブページの更新情報の中で、今回の問題について「米東部リージョン(US-EAST-1)におけるDynamoDB APIエンドポイントのドメイン・ネーム・システム(DNS)解決に関連している可能性がある」と説明している。

DNSは、インターネット上の電話帳に例えられることが多い。これは、利用者が使用するウェブサイト名(例えば bbc.com)を、コンピューターが読み取って理解できる数値に変換する役割を果たしている。

このプロセスは、インターネットの利用方法の根幹を成しており、これに障害が発生すると、ウェブブラウザーが目的のコンテンツを見つけられなくなる可能性がある。

クラウドフレアのマシュー・プリンス最高経営責任者(CEO)はBBCに対し、今回のAWSの障害は、クラウドサービスがインターネットの仕組みに対して持つ影響力を浮き彫りにしたと語った。

「誰にでも悪い日はある。今日はアマゾンにとって、その日だった」と、プリンス氏は述べた。

「クラウドには素晴らしい点がある。拡張性を実現できる。(中略)しかし、今回の障害が発生すれば我々が依存している多くのサービスが停止する可能性がある」

フューチャー・オブ・テクノロジー研究所のコリ・クライダー代表はBBCに対し、「まるで橋が崩壊したようなものだ」、「経済の中核的な部分が崩れ落ちた」と語った。

クライダー氏はまた、クラウドコンピューティングの大部分がアマゾン、マイクロソフト、グーグルに依存しており、その割合は約70%に上るとされる中で、現状は「持続不可能だ」との見方を示した。

「供給が少数の独占的なプロバイダーに集中してしまえば、今回のような事態が発生した際に、経済の大部分が一緒に機能不全に陥る」

「アメリカの独占的なプラットフォーム数社に依存するのではなく、より地域に根ざしたサービスの利用を検討すべきだ」

「これは我々の安全保障、主権、そして経済に対するリスクだ。こうした衝撃に対して市場を強くするためには、構造的な分離を検討する必要がある」

■企業のバックアップ体制にも問題と専門家

一方、責任の一端はAWSを利用する企業側にもあると指摘する専門家もいる。

「アマゾンを利用している企業は、自社のアプリケーションに保護システムを組み込むための十分な対策を講じてこなかった」と、米コーネル大学のケン・バーマン教授(コンピューター・サイエンス)は述べた。

今回のような障害は頻繁に起きているが、大規模なものばかりではない。

バーマン教授はBBCに対し、アプリ開発者は、クラウド上で稼働する重要なアプリケーションについて、バックアップ体制の整備に注意を払うべきだと述べた。

「こうしたシステムをより強固にする方法は分かっているし、安全にそれを実現する方法も分かっている」と、バーマン教授は語った。

こうした事態の責任の所在をめぐっては、法廷での争いになる可能性もある。

たとえば米デルタ航空は、昨年発生したサイバーセキュリティー企業「クラウドストライク」の障害をめぐり、1年以上が経過した現在も、5億ドル(約760億円)を超える損失の補填(ほてん)に関して同社との交渉を続けている。

クラウドストライクが問題を修正した後も、デルタ航空は4万台のサーバーを手動で再起動する必要があり、数日にわたって大規模なフライトの遅延が発生したとしている。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏

小さな不具合が引き起こした大規模インターネット障害、AWSの事案から学ぶ教訓

世界中で大手企業のアプリやサービスをダウンさせた米アマゾンのクラウド事業「アマゾン・ウェブ・サービス(AWS)」の障害は、全てが小さな不具合から始まった――。アマゾンがそんな調査結果を発表した。

大規模障害が発生したのは今月20日。アマゾンが23日に発表した事後調査結果によると、原因は二つの自動化されたシステムが、同時に同じデータの更新を試みたことだった。これが発端となって重大な問題に発展し、アマゾンの技術者が急きょ対応に追われた。

AWS障害の影響は広範に及び、食品の注文や病院ネットワークとの通信、モバイルバンキングの利用、防犯システムやスマートホーム端末への接続などができなくなった。動画配信大手のネットフリックスをはじめ、スターバックス、ユナイテッド航空といったグローバル企業のオンラインサービスも一時的に利用不能になった。

アマゾンはAWSのウェブサイトに掲載した声明で、今回の障害について謝罪。「今回の出来事が多くの顧客に多大な影響を与えたことを認識している。この出来事から教訓を学ぶために全力を尽くし、さらなる改善に努める」とした。

発端は、二つのプログラムが同じDNS記録(インターネットの電話帳にあたる)を同時に書き込もうとして競合したことだった。結果としてDNS記録の空白が生じ、そこから複数のAWSサービスが混乱状態に陥った。

米シスコのネットワーク監視サービス責任者を務めるアンジェリーク・メディナ氏はCNNの取材に対し、「まさに電話帳の例え通り、電話の向こう側に相手がいるのに、どうすればつながるのか分からずに問題が起きた状態だ」と解説する。「その電話帳が、実質的に消えてしまった」

イリノイ大学のインドラニル・グプタ教授はCNNのメール取材に対し、今回の障害を学生の課題にたとえて説明した。例えば作業の速い学生と遅い学生に共有ノートで共同作業するよう指示したとする。遅い方の学生は短時間集中で取り組もうとするものの、その成果は速い方の学生の作業と衝突したり矛盾したりする可能性がある。同時に、速い方の学生は常に素早く間違いを修正しようとして、遅い方の学生の作業を消去してしまう可能性がある。

その結果、教員が点検した時点でノートには空白のページ(または取り消し線が引かれたページ)ができた状態になる。

この「空白のページ」がAWSのデータベース「DynamoDB」をダウンさせ、アプリ開発と導入に使われる仮想サーバーの「EC2」や、ネットワークの負荷を分散させる「Network Load Balancer」などのサービスに連鎖反応が及んだ。DynamoDBが復旧した時点でEC2では全てのサーバーを同時に復旧させようと試みたが、追いつくことができなかった。

アマゾンは今回の障害を受け、二つのシステムが互いの作業内容を上書きする「レースコンディション」問題の修正や、テスト工程の強化といった再発防止策を講じている。

今回のような大規模障害は極めてまれだが、これが現実だとグプタ教授は言い、「人が病気になるように、今回のような問題を回避することはできない」「しかし、企業がその障害にどう対応し、顧客に情報を提供し続けることが大きな鍵を握る」と話している。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏