東証システム障害の一部始終と残る疑問、NAS故障と切替設定の不備が重なる
東証の売買システム「arrowhead(アローヘッド)」で取引に支障をきたす大規模なシステム障害が発生したのは2018年10月以来。システム障害により全銘柄の売買を終日停止する事態は東証が取引を全面的にシステム化した1999年以降初めてだ。
これにより、3兆円規模の売買機会が失われた。影響は東証だけにとどまらず、arrowheadを使用している名古屋・札幌・福岡の各証券取引所でも10月1日の取引が全銘柄で終日にわたり停止となった。
設定不備で切り替えできず
同社が最初に異常を検知したのは、午前9時の取引開始を約2時間後に控えた午前7時4分だ。arrowheadを構成する運用系ネットワーク内で、同社が「共有ディスク装置」と呼ぶNAS(Network Attached Storage)1号機のメモリーに故障が発生した。
NASは、arrowheadの複数のサブシステムが共通で使用する認証用のデータなどを格納している。1号機と2号機をActive-Active構成で運用しているが、1号機の障害発生時に2号機のみの運用へ自動で切り替える機能が正常に働かなかった。
この影響で、本来はarrowheadのサブシステムの1つである「情報配信ゲートウエイ」を通じ、同日午前7時0分に送信すべき電文の送信ができなかった。別のサブシステムである「売買監視サーバー」や監視端末へのログインも不可能になるなど、NASの停止による影響はarrowheadを構成する複数のサブシステムに広がった。
証券会社など外部に異変を通知したのは約1時間後の午前8時1分。さらに午前8時30分すぎに、午前9時からの取引を停止すると通知。午前8時54分には障害の影響が東証以外のシステムに波及しないよう、arrowheadと証券会社間の発注系経路を遮断。
原因究明と復旧作業を進めたが、結局午前11時45分に終日売買停止を発表した。原因となったメモリーが載った基板を同日中に交換したうえでシステムを再起動し、翌10月2日午前9時から売買を再開した。
その後の調査で、富士通が納入したNASのファームウエアの設定不備が大規模障害につながったことが判明した。2台構成のNASの1台で障害が発生しても、本来はもう1台のみの運用に自動で切り替えてarrowhead全体の運用に支障が出ない設計だった。
しかし実際には、NASのファームウエアの切り替え用設定値に誤りがあり、メモリー故障に起因する障害パターンが発生した際はNASの冗長化が機能しなくなっていた。
東証と富士通、見逃した仕様変更とマニュアルの不一致
東京証券取引所で10月1日に起きた大規模システム障害の真因が分かった。富士通が作成したNAS(ネットワーク接続ハードディスク)のマニュアルに不備があり、東証と富士通はそれを5年以上見逃していた。東証はこれまでシステムを停止させない「ネバーストップ」を掲げてシステムの信頼性を高めてきたが、今後はシステム障害が発生しても短時間に復旧させる「レジリエンス(障害回復力)」も重視する方針に大きくかじを切る…
株式会社東京証券取引所
10 月 1 日に株式売買システムで発生した障害について
2020 年 10 月 1 日に株式売買システム「arrowhead」で発生した障害により、投資家 の方々をはじめ、多くの市場関係者の皆様に御迷惑をお掛けしましたことを改めて深く お詫び申し上げます。
今回発生した事象に関し、経緯、原因及び再発防止措置等について御報告します。 1. 経緯
(1)事象発生から売買停止まで
10 月 1 日午前 7 時 4 分、共有ディスク装置1(以下「NAS」という)1 号機へ
のアクセス異常を示すメッセージを大量に検知しました。その後、社内で使用 する売買監理画面が使用できなくなり、また、通常 7 時以降にユーザ向けに配 信している相場情報の一部が配信できていない事象が発生しました。
開発ベンダである富士通と確認を進めたところ、メモリ故障を契機に NAS 1 号機の制御機構がダウンし、2 号機に自動的に切替えが行われないことによ り、NAS 全体が使用できない状態であることを 7 時 55 分に確認しました。
その後、継続的に切替え作業を続けていたものの、NAS2 号機への切替えの目 途が立たず、正しく情報配信できない状況であったことから、全銘柄の売買を 9 時の立会開始から停止することを 8 時 36 分に決定し、公表しました。
売買停止に際しては、通常、社内の売買監理画面を使って操作しますが、当 該機能が NAS にアクセスする処理であったことから、別の停止手段として、
1 複数サーバにおいて共通で使用される、銘柄情報やユーザ情報等のファイルを NAS(Network Attached Storage)に格納しています。
arrowhead と取引参加者をつなぐネットワーク上の接続部を遮断することと し、8 時 54 分に当該指示を行いました。
(2)再開に向けた検討から終日売買停止まで
その後、9 時 26 分に NAS 2 号機への手動での切替えが成功し、各種機能が正
常に動作する状態になりました。 当日中の売買再開に向けて、システムの復旧に向けた検討に着手しました
が、ネットワークは遮断したものの、arrowhead 内部では 8 時 54 分までの注文 をもとにした約定が発生し、取引参加者へ応答せず滞留している状況であった ことから、注文の扱いや内部で発生した約定の扱い、値段の連続性等を考慮 し、arrowhead の再立ち上げが適切であると考えました。
取引参加者やベンダの注文の再発注等の対応可否や対応時間も考慮するた め、ヒアリングを行ったところ、対応可能な取引参加者の数や属性、売買代金 シェアが限定的であり、市場における価格形成の公正性・信頼性が確保できな いおそれがあることが分かりました。
併せて、既に受け付けた注文の取引参加者側での取扱い等を考慮すると再開 した場合には混乱が生じることが予想されたため、11 時 45 分に売買を終日停 止することを決定し、その旨公表しました。
(3)翌日の取引に向けて
NAS 1 号機の故障したメモリ2を搭載したマザーボード3を当日中に交換し、翌
日は通常どおり取引を行いました。 2. 障害の原因
(1) NAS 2 号機への自動切替えが正常に動作しなかった理由
当社は、NAS 故障時でも 30 秒以内に切替えて、業務を継続できることをシステム
2 工場での調査の結果、メモリカードに対して読み書きできない部品故障と断定されました。また、製造 ロットによる不良でないことも確認されました。
3 メモリやCPU等を搭載した基盤部分です。
要件として定めています。現行 arrowhead4構築時に、富士通の製品マニュアルを参 照して NAS の設定値の妥当性を当社と富士通で共同検討しましたが、そこには切替 えに関する設定値に拠らず自動切替えが動作すると記載されていたことから、同設 定値におけるこれまでの arrowhead の稼働実績に鑑み、富士通の設定値を当社が確 認のうえ、決定しました。
しかし実際には、arrowhead に設定した値ではメモリ障害時には自動的に切り替 わらない製品仕様であることが、本障害後の調査で判明しました。マニュアルの不 備により正しい仕様が把握できませんでした5 6。
富士通では、通常、初期設定値でマニュアルどおりに動作することをテストして から製品として出荷します。今回、arrowhead に設定した値は初期設定値ではなか ったため、出荷時、机上で仕様を確認したものの、テストは行われていませんでし た。当社においても NAS の切替えテストは実施していましたが、切替え後の業務継 続に確認の重きを置き、設定値とマニュアルの整合性については富士通内の製品出 荷プロセスで検証されている前提であったことから、テスト時はネットワーク故障 を疑似的に発生させることで、切替えが正常に行われ業務継続できることを確認し ていました。
なお、NAS の手動での切替え完了まで時間を要したのは、自動的に切り替えられ る機構であることを前提として、障害対応手順を整備していたことに拠ります。
(2) 当日中の取引再開ができなかった理由 1 システム面
売買停止のためにネットワークを遮断しましたが、arrowhead 内部では約定等 の処理が動き続けました。その結果、再開に向けた手順や確認項目が多くなりま した。不測の事態に備え、複数種類の売買停止手段は用意していましたが、NAS が 使えない場合においても確実に売買を停止する手段を具備していなかったこと が問題と認識しています。
4 現行システム=2019年11月稼働
5 2015年9月に稼働した2代目のarrowhead開発時からマニュアルの不備が発生していました。 6 NAS設定値の経緯については、別紙「(補足資料)NAS設定値について」をご参照ください。
2 運用面
arrowhead を再立ち上げして売買を再開するという手順については取引参加者
との合意もなく、テストも実施していない中で、不安定な対応は市場開設者とし て採用すべきではないと判断しました。システム障害発生時の売買停止後の再開 に係る取扱いルールが整備されていなかったことが問題と認識しています。
3. 再発防止のために講じる措置
arrowhead はこれまで「Never Stop」をスローガンとして、信頼性を高める施策 に取り組んで参りましたが、今後は、迅速かつ適切な回復策を拡充すべく、「レジリ エンス(障害回復力)」も同様に重視して取り組みます。
再発防止策 |
内容 |
1 システム対応と総 点検 (2.(1)への対応) |
|
2 確実に売買停止を するための手段の 拡充 (2.(2)1への対応) |
・ 売買停止できないケースの確認(10 月末まで) 備(11 月末まで) |
3 市場停止及び再開 に係るルールの整 備等 (2.(2)2への対応) |
取引参加者・投資家・システムベンダー等から構成され る「再発防止策検討協議会」を設置し、議論のうえルー ル等を整備(21 年 3 月末目途) ・ 売買の再開に向けた手順の整備 ・ 売買停止・再開の基準の明確化 ・ 情報発信の在り方、等 |
以上