富士通研究所ディスクの多重故障に対応した高速リカバリ方式を開発

ディスクの多重故障に対応した高速リカバリ方式を開発

故障復旧時間を従来より約20%以上短縮してコンテンツデータ消失の危険性を低減

株式会社富士通研究所(注1)は、ストレージにおける重要コンテンツの消失対策として、多重故障時でも対応可能でディスク障害からの復旧時間が短いリカバリ方式を開発しました。

障害からデータを守る技術としてRAID(注2)が広く用いられていますが、Webサービスなどで利用されるコンテンツのデータ蓄積量は爆発的に増加する傾向にあり、ディスク故障時の消失データ復旧の長時間化が問題となっています。

今回、データの消失を保護する冗長データをディスク上のデータの塊であるデータブロックのグループごとに管理する独自構成を考案しました。これを用いて、従来どおりのディスク故障への耐性を保ちながら、例えばディスク2台が同時に停止するような多重故障に対して、容量効率とのトレードオフを利用シーンに応じて自由に選択しながら、復旧時間を従来より約20%以上短縮できる新しい高速リカバリ方式を開発しました。

これにより、クラウドサービスやWebサービスの拡大で増加するコンテンツを格納したストレージに対する障害復旧を迅速に実施できます。

本技術の詳細は、10月5日(日曜日)に米国コロラドで開催された国際学会「USENIX HotDep’14」にて発表しました。

開発の背景

近年、Webサービスなどで中心的な役割を果たすコンテンツデータが、年率70%を超える速度で爆発的に増加しています。そのサービスにおける重要性により、コンテンツデータの消失対策として、例えば三重のコピーを持つ方式が取られることがありますが、コンテンツの容量増加に対応するストレージの増量に伴うコスト増が無視できなくなっています。三重コピーは保護したいデータの3倍のストレージが必要となるため、容量効率を上げるために、近年では企業の基幹データ保護などで古くから用いられているRAID技術が見直されています。各データをコピーで保護する代わりに、複数データをまとめて保護する冗長データ(パリティ)を導入することで、三重コピーよりも大幅に少ない冗長データで同等のデータ保護が可能です(図1)。

図1 三重コピー技術からRAID技術への切り替えによる容量効率改善
図1 三重コピー技術からRAID技術への切り替えによる容量効率改善

課題

現在広く普及しているRAID5やRAID6などの標準的なRAIDの技術では、全てのパリティが全データを保護する方式が用いられています。あるディスクが故障した際に、そのディスクに格納された各データを保護するパリティに加え、残存データをすべて使って消失データを復旧する必要があるため、膨大なデータ転送による復旧の長時間化や、復旧中のデータ消失のリスクが増大することが問題となっていました(図2)。例えば、毎秒15MB(メガバイト)のランダムI/O性能で4TB(テラバイト)の容量を持つディスクを48個用いた場合、ディスク2台の同時故障からの復旧に10時間以上かかる計算になります。

図2 従来RAID技術での大量データ転送を伴うデータ復旧
図2 従来RAID技術での大量データ転送を伴うデータ復旧

開発した技術

今回、これまでのRAID技術の信頼性を確保しながら、高速な障害復旧が可能なリカバリ方式を開発しました。

開発した技術の特長は以下のとおりです。

  1. データ復旧処理量を削減するパリティ保護範囲の多層化

    各パリティが保護する範囲を、全てのデータではなく、一部分のデータに限定します。そのうえで何れのデータの消失も保護できるように、各パリティの保護範囲を一部が重なり合うようにずらしながら重ね合わせる(瓦型)独自の方式を開発しました(図3)。ディスク故障時に、消失データを保護していた複数のパリティのうち、復旧に要するパリティとデータの合計が最少になるものを選択することで、復旧処理時間を短縮することができます。

    図3 パリティ保護範囲の多層化
    図3 パリティ保護範囲の多層化

    データとパリティは、それぞれストレージシステムを構成する異なるディスクに分散して配置します。ディスク故障時は、そのディスクに格納されていた各々の消失データに対して、最少の復旧処理量になるようなパリティを選択して復旧します(図4)。

    図4 ディスク故障に伴い消失したデータの高速復旧
    図4 ディスク故障に伴い消失したデータの高速復旧

    例えば、二重障害までを復旧する比較実験を実施した結果、前述の48本の4TBディスクを用いて、図4のようなパリティの保護範囲を構成した場合、従来のRAID技術に比べ約20%以上の復旧時間短縮が可能であることを確認しました。

  2. 利用シーンに応じて柔軟に変更できるパリティ保護範囲の構成

    パリティ保護範囲を瓦型に多層化する構成では、復旧処理時間(データ復旧に要する最少データ処理量に依存)、データ消失確率(各データを保護するパリティ数に依存)、容量効率(データとパリティの比率に依存)は、互いにトレードオフの関係となります。これらを格納データの重要度に応じて最適になるように、パリティ保護範囲を柔軟に調整できます。

効果

今回開発した技術を用いることで、データ量が爆発的に増加しているWebコンテンツなどのデータを蓄積しながら、そのディスク故障からの復旧を高速に行うことが可能となります。これにより、クラウドサービスやWebサービスの拡大で増加するコンテンツを格納したストレージに対する障害復旧を迅速に実施できます。

今後

富士通研究所では、本コンテンツリカバリ技術のさらなる改良をすすめ、2015年度中の実用化を目指します。

🍎たったひとつの真実見抜く、見た目は大人、頭脳は子供、その名は名馬鹿ヒカル!🍏