データストレージ戦略とクラウド選定におけるデータ視点
企業にとって、データ資産の安全な管理は最優先の課題です。ランサムウェア攻撃からの復旧や事業継続計画において、重要なデータの確実なバックアップは不可欠です。多くの企業がバックアップデータやアーカイブデータの保存先としてクラウドストレージを検討しますが、多数の選択肢の中から、何を基準に選定すべきか判断に迷うケースが散見されます。
各クラウドストレージサービスは、データの耐久性、可用性、アクセス性能、コスト構造において独自の特性を持っています。適切なサービスを選定することは、組織のデータガバナンス、リスク管理、そして将来的なデータ活用のポテンシャルに大きく影響します。
クラウドストレージ選定におけるデータ要件の検討
クラウドストレージ選定の最初の検討事項は、保存するデータの種類、量、アクセス頻度、そして何よりもデータに適用される法規制やコンプライアンス要件です。これを踏まえ、国内サービスと海外サービスのどちらを選択するかを判断する必要があります。
この選択においては、各国のデータプライバシー法やデータ主権に関する規制、セキュリティ基準、さらには為替変動がデータ保管コストに与えるビジネス的な側面、そしてデータをどのような形式(オブジェクトストレージ、ブロックストレージなど)で保存・管理すべきかという技術的な側面まで、データライフサイクル全体を見据えた幅広い考慮が必要です。
当然ながら、保存するデータの機密性や規制要件、データの利用パターンによって最適な選択は異なります。データに求められる要件を総合的に検討し、組織のデータ戦略および既存のデータプロセスに最適なクラウドストレージを選ぶことが、効果的なデータ運用とコスト最適化の鍵となります。
国内クラウドストレージのデータ特性
海外クラウドサービスと比較した国内クラウドストレージのデータに関するメリットについても理解が必要です。データレジデンシー(データが物理的に存在すべき場所)に関する特定の規制がある場合や、国内のデータ保護法制への準拠を最優先する場合、国内のデータセンターにデータを保管できるサービスが有利となります。また、国内拠点からのデータアクセス時のレイテンシーが最適化される傾向にあり、特定のアプリケーションにおけるデータ転送性能が重要となるケースでメリットがあります。
具体的な国内クラウドストレージサービスの機能やユースケースについては、保存対象のデータの種類(構造化データ、非構造化データ、バックアップイメージなど)や必要なデータアクセス性能といったデータ要件と照らし合わせて評価する必要があります。クラウドストレージを選定する際に、保存データの特性、セキュリティ要件、そしてビジネスニーズをデータ視点から検討する重要なポイントを理解し、自社のデータ管理とリスク回避策を策定することが求められます。
特定サービスのデータアーキテクチャと容量スケーリング
ここからは、特定のインフラストラクチャサービスにおけるデータ関連の機能拡張について触れます。
単一障害点からのデータ保護を強化するため、特定の仮想基盤サービスにおいて、単一のデータ保護クラスタを複数のデータセンターに跨って構成できる機能が提供されています。これは、データセンターレベルの障害発生時にもデータの可用性を維持することを目的としています。ストレージのレプリケーションをリアルタイムで行うことで、高いレベルのデータ可用性(SLA 99.99%など)を実現しますが、リアルタイムデータ同期のためには通常のクラスタ構成と比較してより多くのサーバーリソース(特にネットワーク帯域とストレージI/Oリソース)が必要となるデータ可用性とコストのトレードオフが存在します。この機能が利用可能なリージョンが限定されている点は、データの物理的な配置場所に関する制約となります。
また、仮想環境で利用可能なインスタンスサイズについてもデータ容量と処理性能の観点から拡張が進んでいます。従来のインスタンスサイズ「AV36」がノードあたりCPU 36コア、メモリ 576GB、フラッシュストレージ 15.36TBのリソースを提供していたのに対し、新たに追加された「AV36P」はメモリとストレージ容量が増強され(メモリ 768GB、フラッシュストレージ 19.20TB)、さらに大規模な「AV52」はCPU 52コア、メモリ 1.5TB、フラッシュストレージ 38.40TBと、大幅にデータ処理能力とストレージ容量が向上しています。これらの新インスタンスサイズは、ペタバイト級の大規模データセットや、高いI/O性能が求められるデータワークロードを仮想基盤上で実行するニーズに対応します。ただし、これらの新しい容量オプションが利用できるリージョンも限定されており、大規模データ環境の構築場所を選定する際の考慮事項となります。
データモビリティの最適化とAVSにおけるストレージ戦略の進化
VMware HCX Enterpriseによるデータ移行の高度化
VMware HCXは、VMware vSphereベースの仮想環境間で仮想マシンに関連付けられたデータの移行を容易にするサービスです。AVSにおいてはこれまで標準のAdvancedエディションが提供されていましたが、Enterpriseエディションの無償提供継続により、データモビリティの選択肢が広がりました。
Enterpriseエディションで利用可能な主な機能は、大規模なデータ移行やデータ可用性が求められるシナリオにおいて特に価値を発揮します。
Replication Assisted vMotion(RAV): 大量の仮想マシンデータを一括で移行する必要があるものの、長時間の停止は避けたい場合に有効なデータ移行方式です。従来のバルクマイグレーションが短い停止時間を伴うのに対し、RAVはライブマイグレーションの無停止移行の利点を組み合わせ、「大量の仮想マシンに紐づくデータを無停止で一括移行」することを可能にします。これにより、オンプレミス環境で運用されている複数の仮想マシンデータを、ビジネスインパクトを最小限に抑えつつ短時間でAVS環境へ移行できます。
Mobility Groups: 複数の仮想マシン(すなわち、関連するデータワークロード)を、仮想マシン名やリソースグループといったデータに関連する属性に基づいてグループ化できる機能です。これにより、個々のVM単位ではなく、データグループ単位で効率的な移行計画と実行が可能となり、複雑なデータ依存関係を持つアプリケーションの移行管理が簡素化されます。
Mobility-Optimized Network: サイト間でL2延伸された環境では、Default Gatewayがオンプレミスに残存している場合に、AVS側の仮想マシンからオンプレミスのDefault Gatewayを経由してインターネット等にアクセスする、いわゆる「トロンボーン現象」により非効率なデータトラフィックが発生することがあります。この機能を活用することで、データトラフィックの経路を最適化し、移行中または移行後の環境におけるデータの送受信効率を向上させ、データアクセス時の遅延を削減できます。
AVSにおけるデータストアの選択肢の拡大
AVSでは従来、VMware vSAN™を使用してデータストアを構成する際に、基盤となるホストハードウェアの構成カスタマイズが制限されるという制約がありました。これは、CPUやメモリのリソースは十分でも、データストレージ容量のみが不足した場合に、ストレージ容量を増やすためだけにホスト全体を追加する必要が生じ、ストレージコストの効率性が低下するケースに繋がることがありました。
ここで有効な選択肢として登場したのが、外部データストアの利用です。具体的には、NetApp ONTAPをマネージドサービスとして利用できる「Azure NetApp Files」をAVSの外部データストアとして利用することが可能になりました。これにより、vSANの制約にとらわれず、データストレージ容量だけを必要な分だけ、独立して拡張できるようになります。これは、特に大規模なデータを扱う仮想基盤をAVSへ移行する際に、ストレージ容量要件に基づいてホスト数を決定する必要がなくなるため、ストレージ関連コストを大幅に削減(例として30~50%削減の可能性)できる大きなメリットとなります。データ量が多いワークロードをAVSで運用する際の、ストレージ戦略における柔軟性とコスト効率が向上します。
Azure NetApp FilesのデータパフォーマンスとAVSエコシステムにおけるデータ活用
Azure NetApp Filesは、ベアメタルストレージとして実装されており、そのアーキテクチャはデータアクセス性能において優位性を示します。実際に実施された性能測定では、単一ボリュームで100,000 IOPSに近い数値が確認されており、これは高負荷なデータベースワークロードやデータ分析アプリケーションに必要な高速なデータ読み書き能力を裏付けるものです。
ネットワーク経路におけるデータ転送の効率も重要です。通常の経路では複数のゲートウェイを経由するため、データアクセス時に2ms以上の遅延が発生する可能性があります。しかし、ExpressRoute Gatewayの最上位プランである「Ultra Performance」でサポートされるFastPath機能を利用することで、ゲートウェイをバイパスしてデータ通信経路を短縮し、この問題を解消できます。この最適化された方法では、データ転送のレイテンシーが1ms程度改善され、結果としてデータ処理全体の性能向上に繋がります。これは、AVS上のワークロードがAzure上のデータサービスやオンプレミスのデータソースにアクセスする際に、より高速なデータ交換を実現することを意味します。
初期リリース以降、AVSはAzureサービスの豊富なエコシステムとの連携を強化してきました。Azure Backup Serverとの連携は、AVS上で稼働するワークロードのデータを保護し、迅速なデータ復旧を可能にします。また、App ServiceやApp Gatewayなどと併用することで、AVS上の仮想マシンに格納されたデータを活用するアプリケーションのモダナイゼーションが進められます。これは、クラウドネイティブなサービスからAVS上のデータにセキュアかつ効率的にアクセスできる環境を構築することを意味します。さらに、Azureのセキュリティ機能との連携によるデータの保護強化や、必要に応じたプライベートクラウドのデータキャパシティ拡張も容易に行えます。
VMware製品に関する豊富な知見を持つパートナーは、AVSに関する運用管理サポートサービスを提供しています。最適なデータストアの選定(特にデータ量、アクセスパターン、コスト要件に基づいたAzure NetApp Filesのような外部データストアの活用判断)や、新機能の有効な活用方法(例えば、データ移行機能やデータ保護機能)に課題を抱えている場合は、データ戦略の観点からの専門的な助言を求めることが有効です。
SDS (ソフトウェア定義ストレージ)のデータ管理における役割
「ソフトウェア定義ストレージ」(SDS)という用語は、ベンダーによって定義が異なり、市場には「SDS」を称する様々な種類の製品が存在します。データコンサルタントの視点からは、SDSの定義の多様性と、それがデータストレージの選定に与える影響を理解することが重要です。
SDSに関する見解の相違は大きく、定義よりもむしろマーケティング上の工夫(マーケテクチャ)によって特徴づけられている側面があります。
一般的に、SDSではデータストレージのハードウェア管理を担うソフトウェア層が物理ハードウェアから分離されています。これにより、ストレージソフトウェア自体が特定のハードウェア構成に強く依存しない形で作られています。コントロールプレーン(ストレージ管理や制御のための機能)はデータプレーン(実際のデータの読み書きや転送を行う機能)から分離されているのが理想とされますが、製品によってはこの分離が明確でない場合もあります。
このように広範な定義がなされているため、現在利用可能なほぼ全てのストレージ製品が何らかの形でSDSと見なされる状況です。したがって、SDS市場において、組織の具体的なデータストレージ要件(データの耐久性、性能、拡張性、データ保護、暗号化など)を満たす最適な製品を判断するのは、技術評価を行う側の責任となります。単に「SDS」というラベルに惑わされるのではなく、データ管理とデータ活用のニーズに合致した機能セットを持つ製品をデータ視点から厳密に評価することが不可欠です。
スケールアウトオブジェクト/ファイルSDSのデータ管理における課題とストレージ選定のデータ視点
スケールアウトオブジェクトストレージおよびファイルストレージとして実装されるソフトウェア定義ストレージ (SDS) には、データ管理とアクセス性能の観点からいくつかの短所があります。
データデプロイメントの柔軟性: ソフトウェア単体で提供されるかハードウェアとバンドルされるかにかかわらず、基盤となるハードウェアはベンダーが認定・サポートするものに限定される場合が多く、これがデータが格納される物理インフラストラクチャの柔軟性を制限することがあります。特定のハードウェアに依存すると、調達や構成において制約が生じうるため、データ配置戦略に影響が出ることがあります。
データアクセス性能とレイテンシー: 一般的に、スケールアウトファイルSDSのスケーラビリティはオブジェクトSDSほど高くない傾向がありますが、データアクセス時の遅延はオブジェクトSDSの方が大きい傾向があります。特にスケールアウトオブジェクトSDSでは、メタデータ管理やデータ冗長性のメカニズムが原因で、データ取得に有意なレイテンシーが発生することがあります。このため、これらのタイプのSDSは、リアルタイムに近い高速なデータアクセスを必要とする基幹アプリケーションよりも、高いパフォーマンス要件が厳しくないバックアップデータやアーカイブデータといったコールドデータの格納に適しています。
データストレージ導入・運用に必要なスキル: スケールアウトオブジェクト/ファイルSDSをソフトウェアとして購入し、自身でインフラストラクチャを構築・運用する場合、データストレージ基盤の設計、デプロイ、および継続的な管理には専門的なスキルセットが必要です。社内に必要な専門知識がない場合、特定のサービスやシステムインテグレーターのサポートが別途必要となり、導入・運用負荷が増大する可能性があります。
アーカイブデータへのアクセスと移動: スケールアウトオブジェクト/ファイルSDSをアーカイブ用途に使用する場合、データが現在アクティブに利用されている場所からアーカイブ層へデータを移動させるプロセスが必要となります。一部のベンダーはこのためのツールを提供していますが、多くの企業は大容量データの移行に対応するためにサードパーティー製のソフトウェアを利用しているのが実情です。このデータ移動プロセス自体が複雑性や時間を要する可能性があります。
データ保管コスト(TCO)の問題: データ削減技術(重複排除や圧縮)は、スケールアウトオブジェクト/ファイルSDSにおいては標準機能として提供されないか、限定的な場合がほとんどです。これは、同じ量の論理データを保存するためにより多くの物理ストレージ容量が必要になることを意味し、結果としてデータ保管にかかるトータルコスト(TCO)を増加させる要因となります。データの削減率がTCOに大きく影響するワークロード(例:バックアップデータ)においては、この点を考慮する必要があります。
SDS市場とデータストレージ選定の要点
SDSは、多様な実装と独自の長所短所を持つ、広範なマーケティング用語として捉える必要があります。ベンダーごとにSDSの定義が異なるため、そのラベルだけでは製品のデータ管理能力や性能を正確に判断することは困難です。
ビジネスに適切なSDSソリューションを選択するには、対象となるデータワークロード(アプリケーションの種類とそれに伴うデータアクセスパターン)、必要なデータストレージ容量と将来的なデータ増加率、データアクセスにおけるパフォーマンス要件(IOPS、スループット、レイテンシー)、社内に存在するデータストレージ技術に関する専門技術、そして提供されるSDS製品がどのようなデータ管理機能(バックアップ連携、レプリケーション、データ階層化など)をサポートしているかについて、正確な理解に基づいた技術評価が不可欠です。
SSD技術の進化と多様なクラウドストレージサービスの登場に伴い、データストレージの評価方法はますます複雑化しています。こうした状況下で自社にとって最適な製品を選ぶためには、単に容量や価格だけでなく、以下のデータ関連の指標を総合的に評価することが有用です。
データ容量: 必要となるデータ量(現行および将来予測される増加分)を正確に把握する。単位(GB, TB, PBなど)の定義(1000ベースか1024ベースか)に注意し、ベンダー仕様を確認する。
データアクセス性能: ワークロードが要求するIOPS、スループット、およびレイテンシーの要件を満たせるか。特にデータベースや分析基盤など、性能がクリティカルなワークロードにおいて重要。
データ耐久性・可用性: データの損失を防ぐ仕組み(冗長性、レプリケーション)と、システム障害発生時のデータアクセス可能性(SLA)を確認する。
データ管理機能: バックアップ、リカバリ、スナップショット、暗号化、階層化といったデータ保護・管理機能が要件を満たしているか。
データ保管コスト: 物理容量単価だけでなく、データ転送コスト、データ削減効果の有無、運用管理コストを含めたTCOを評価する。
データボリュームの測定単位
データストレージ容量は、テラバイト(TB)やペタバイト(PB)といった単位で表現されます。1GBは1000MB、1TBは1000GB、1PBは1000TBに相当し、大容量ストレージは「ペタバイトクラス」と称されることが多いです。これは10を基数とする単位です。
ただし、ストレージ製品によっては2を基数とする単位を使用している場合があるので注意が必要です。キビバイト (kiB) は1024バイト(2の10乗)、メビバイト (MiB) は1024の2乗バイト、ギビバイト (GiB) は1024の3乗バイトを表します。幸い、テラバイト以上の大容量ストレージでは、一般的に10を基数とする単位(TB, PB)が使われることがほとんどであり、データ容量の計画においては主にこれらの単位で考慮すれば問題ないケースが多いです。重要なのは、ベンダーが容量を提示する際にどちらの単位を使用しているかを確認し、正確なデータ容量要件との比較を行うことです。
データストレージの進化と現代組織が直面するデータ課題
SSD(Solid State Drive)が、従来のHDD(Hard Disk Drive)と同様のSATAやSASといったストレージインタフェースを採用し、HDD用のドライブベイに収まる物理パッケージで提供されている点は、既存のサーバー筐体を活用してSSDを導入する上での互換性というメリットがあります。しかし、フラッシュストレージの本質的な優位性は、HDDと比較してより小型の物理スペースで大容量のデータを実現できる点にあります。これにより、ペタバイト級のデータボリュームをデータセンターラックに搭載するために必要な物理スペースを大幅に削減でき、データセンターの集積度とコスト効率に寄与します。
現代組織が直面するデータストレージとデータ活用の課題
データ管理と活用において、多くの組織が以下のような課題に直面しています。これらは、データコンサルタントやデータアナリストが解決を支援すべき重要なポイントです。
業務現場で発生するデータの管理・活用が不十分: オペレーションから生まれる大量のデータを適切に収集、整理、分析し、ビジネスインサイトに繋げることができていない。
社外でのデータ利用環境の未整備: パートナー、顧客、あるいはリモートワーク環境からのデータへのセキュアなアクセスや共有が困難である。
データの種別と所在の整理・把握不足: 組織内に存在するデータの種類(構造化、非構造化など)や物理的な保存場所が整理されておらず、データガバナンスやデータ発見が阻害されている。
データへの適切なアクセス権付与が困難: データの機密性に応じたアクセス制御が複雑であり、データセキュリティリスク管理やコンプライアンス対応に課題がある。
クラウド利用によるデータの分断化: 複数のクラウドサービスを利用する過程でデータがサイロ化し、部門を跨いだデータ統合や横断的なデータ分析が難しくなっている。
クラウド利用時の高額なデータ転送費用への懸念: クラウドサービス間や、オンプレミスとクラウド間のデータ移動にかかるコストが高額になることが、データ連携やデータレイク構築の障壁となっている。
クラウドへ移行すべきデータの選別・判断が困難: どのデータをクラウドに配置すべきか、その基準(アクセス頻度、重要度、規制、コストなど)が明確でなく、適切な移行判断ができていない。
データをクラウドに配置した際の読み書き性能低下: 特定のデータワークロード(データベースなど)において、クラウドストレージの**データアクセス性能(レイテンシーやスループット)**が要件を満たさない場合がある。
オンプレミス/クラウド間のデータ連携手段の不足: ハイブリッド環境におけるデータの同期やリアルタイム連携を実現する仕組みが整っていない。
複数のクラウドを跨いだデータ連携手段の不足: マルチクラウド環境において、異なるクラウドプロバイダー間のデータ統合や連携が困難である。
ストレージ形態の刷新が困難: 新しいストレージ技術やアーキテクチャへのデータ移行やシステム変更の実施に高いハードルがある。
最適なストレージ形態の選定・判断が困難: 保存するデータの特性、アクセスパターン、コスト、性能要件に基づいた最適なストレージソリューションを選択する基準や評価能力が不足している。
サーバー増強に対するストレージの追随性不足: コンピュートリソースの拡張ペースに、データストレージ容量や性能の拡張が追いつかず、全体のスケーラビリティが制限される。
障害に強いストレージ環境の構築困難: データの耐久性や高可用性を保証するための、レプリケーションやデータ保護機能を備えたストレージ環境の設計・構築に課題がある。
ファイルサーバーのクラウド移行の遅延: 大量のファイルベースデータのクラウドへの移行が進まず、レガシーなデータ管理環境から脱却できていない。
ランサムウェア対策としてのデータ隔離の難しさ: 重要なデータを他のシステムやネットワークから論理的・物理的に隔離する対策が十分に講じられていない。
バックアップはしているが、リストア検証が不十分: バックアップデータが存在しても、実際に必要な時にデータを正しく復旧できるかどうかの検証プロセスが確立されていない。
業務システム自体のデータバックアップ不足: 重要なアプリケーションデータやデータベースのデータバックアップが体系的に行われていない。
DXに関連するデータ量の増加への対応不足: デジタル変革の取り組みによって生成される膨大なデータの増加に対し、ストレージインフラが追いついていない。
生成AIに伴うデータ量の増加への備え不足: 生成AIの学習や推論に必要となる超大容量データの格納と管理に対応できるインフラストラクチャの準備ができていない。
蓄積した古いデータの効果的な保存方法が不明: アクセス頻度の低いアーカイブデータの長期保存について、コスト効率が高くコンプライアンス要件を満たす方法が確立されていない。
現在および将来検討しているデータストレージ戦略
多くの組織では、データのアクセス頻度や重要度に基づいたデータ階層化ストレージ戦略を採用または検討しています。
オンプレミス 階層化ストレージ: データセンター内で、アクセス頻度の高いホットデータを高速なSSDに、アクセス頻度の低いコールドデータを低コストなHDDに配置するといった、異なるディスクメディアを併用するデータ管理手法。
クラウド オブジェクトストレージ: クラウド環境で、非構造化データ、バックアップ、アーカイブといった大容量でアクセス頻度が比較的低いデータの保存先として広く利用されているストレージ形態。高いスケーラビリティとコスト効率が特徴。
これらのストレージ形態は、それぞれ異なるデータ特性や利用シナリオに適しており、組織のデータ戦略に合わせて適切に組み合わせることで、データ管理の効率化とコスト最適化を図ることが求められます。
データストレージの性能評価と物理的特性:データコンサルタントの視点
データ転送速度(スループット)
ストレージにおけるスループットは、1秒間にストレージデバイスが読み取り/書き込みできるデータ量(ビット数で計測)を示します。SSDの場合、一般的にデータの読み取り速度の方が書き込み速度よりも高速であるというデータ転送特性があります。
ただし、メーカーが提示するスループット値は、特定の平均ブロックサイズに基づいて計算されていることが多く、これが実際のワークロードにおけるデータ転送性能と乖離を生む可能性があります。スループットや後述のIOPSといった性能指標は、処理するデータのブロックサイズ(アクセス単位)によって大きく変動します。現実世界のデータワークロードでは、様々なサイズのブロックが混在するため、この差が実際のアプリケーション性能に大きな影響を及ぼす可能性があります。
また、メーカーはデータの読み取り速度と書き込み速度を、ランダムアクセス(ディスク上の分散した場所に存在するデータへのアクセス)とシーケンシャルアクセス(ディスク上の連続した場所に存在するデータへのアクセス)という異なるデータアクセスパターンに対しても区別して提示しており、これもワークロードの特性に合わせて評価する必要があります。
SSDのデータ耐久性
フラッシュストレージの世代によってデータの書き込み耐久性は異なります。一般的に、1つのセルに格納するデータビット数が少ないSLC(シングルレベルセル)が最も高い耐久性を提供し、MLC(マルチレベルセル)、TLC(トリプルレベルセル)、QLC(クアッドレベルセル)とセルあたりのデータ密度が高まるにつれて耐久性は低下します。これは、データ書き込みによってフラッシュセルが劣化するため、書き換え回数に上限があるためです。ただし、eMLC(enterprise Multi-Level Cell)などの技術的進歩により、全てのフラッシュタイプでデータ書き込み耐性は向上しており、特定のワークロードにおけるデータの書き込み頻度を考慮して適切なタイプを選択することが、ストレージの寿命とデータの信頼性を確保する上で重要です。
IOPSとデータアクセス遅延(レイテンシー)
IOPS(Input/Output Operations Per Second)は、1秒間にストレージデバイスが処理できるデータ入出力リクエストの数を示します。スループットと同様に、IOPSの測定値も読み書きするデータの量(ブロックサイズ)やアクセスパターンによって変動します。
レイテンシーは、ストレージに対してデータへのアクセスリクエストを発行してから、実際にデータが読み書きされるまでの応答時間を示します。HDDの場合、機械的な動作があるためレイテンシーは一般的に10ミリ〜20ミリ秒ですが、SSDではメカニカルな遅延がなくなり、数ミリ秒、実際のアプリケーションでは約1ミリ秒程度の高速なデータアクセス時間が期待できます。このデータアクセス速度の差は、トランザクション処理やリアルタイム分析など、低遅延でのデータ取得が求められるワークロードにおいて決定的な違いをもたらします。
データ信頼性と可用性に関する指標(MTBF/AFR)
平均故障間隔(MTBF:Mean Time Between Failures)は、多くの業界でシステムやコンポーネントの信頼性を示す重要な指標ですが、ストレージにおいては、通常、電源オン状態からデータ損失に繋がる故障が発生するまでの平均的な動作時間を示します。ストレージドライブ自体は修理が困難な場合が多く、障害発生時はドライブを交換し、RAID構成などによってデータの修復や再構築を行うことになります。RAIDのようなストレージサブシステムも独自のMTBFを持っており、これらが組み合わさってストレージ環境全体のデータ可用性に影響を与えます。高いMTBFは、データへの継続的なアクセス可能性という観点から望ましい指標です。
一部のメーカーはMTBFの代わりにAFR(Annualized Failure Rate:年間故障率)を指標としています。AFRは、ユーザー側の要因(停電によるデータ破損など)を除いたメーカー側の原因によって、1年間で現場において故障すると予測されるドライブの割合を示します。これは、ある期間におけるデータ損失リスクを確率論的に示す指標として利用できます。
データストレージの物理的形態とデータ転送インターフェース
ノートPCで一般的な2.5インチSSDは、ストレージアレイでも広く採用されており、データの物理的な格納とサーバーへの接続において互換性を提供します。従来の3.5インチドライブベイは引き続きHDDで利用されています。これらのドライブは、データ転送インターフェースにSATA(コンシューマー向けや一部のエンタープライズ)またはエンタープライズアプリケーション向けのSASを採用しています。
U.2コネクターは2.5インチSSDで使用される場合が多く、M.2とは異なり稼働中にドライブを交換できるホットスワップに対応しているため、システムの稼働を停止することなくデータストレージの増設や交換が可能です。M.2は小型フォームファクターで、データ転送インターフェースにPCI Express Mini Cardを使用し、高速なデータアクセスが求められる用途(ブートドライブや高性能キャッシュなど)で利用されます。これらのフォームファクターとインターフェースの選択は、データが物理的にどのように格納され、サーバーとどのようにデータ交換を行うかを決定し、システムの設計や性能に影響を与えます。
フラッシュストレージの進化とデータワークロードへの影響
NVMeによるデータ転送の高速化
NVMe (Non-Volatile Memory Express) は、NAND型フラッシュメモリなどの高速ストレージデバイスとホストシステムをPCI Express (PCIe) バスで直接接続するためのデータ転送インターフェース規格です。この接続方式により、従来のSATAやSASといったHDD時代に設計されたインターフェースと比較して、ストレージとの間のデータ転送帯域幅が大幅に拡大され、より低いデータアクセス遅延が実現されます。U.2コネクターがNVMeインターフェースもサポートできる点は、2.5インチという物理的なフォームファクターを維持しつつ、高速なデータ経路をシステムに統合する上での利便性を提供します。
SSDの登場によるデータストレージインフラの変革
NAND型フラッシュメモリを搭載したSSD(Solid State Drive)は、極めて短期間で企業および個人のデータストレージインフラストラクチャの様相を根本から変えました。SSDが広く普及した現在、プラッター(磁気ディスク)を物理的に回転させ、磁気ヘッドを移動させてデータを読み書きするHDDの方式、特に性能向上を図るためにプラッターの最外周のみを使用する「ショートストローク」といった手法は、データアクセス性能を物理的な制約の中で最大限引き出そうとする試みとして捉えられます。対照的に、SSDは電子的にデータにアクセスするため、根本的に高速なデータアクセス性能を提供します。
登場当初のSSDは、HDDと比較してデータの読み書き速度は圧倒的に高速であったものの、データ容量あたりのコストが非常に高く、容量も限定的でした。しかし、NAND型フラッシュメモリ技術の急速な進歩に伴い、データ容量あたりの価格は劇的に低下し、当初の主要な欠点の多くは克服されました。それでもなお、特定のデータワークロードに対してSSD、HDD、あるいは両者を組み合わせたハイブリッドストレージソリューションのどれを選択すべきかを決定する際には、データのアクセス頻度、性能要件、必要なデータ容量、コスト、およびデータ寿命といった重要な要素を総合的に検討する必要があります。
SSDのデータ性能と物理的な優位性
SSDをはじめとするフラッシュストレージは、その設計思想の通り、従来のHDDと比較してデータの読み書き速度が飛躍的に高速です。実効的なデータ転送速度を示すスループット、1秒間に処理できるデータ入出力リクエスト数を示すIOPS、そしてデータアクセスにかかる時間を示すレイテンシーといった様々な性能基準で測定した場合、SSDはHDDを2倍、3倍、あるいは測定方法によっては桁違いに凌駕するデータ処理能力を示します。
特に、IOPSの差は顕著です。HDDが一般的に数百IOPS程度であるのに対し、SSDは数万IOPSに達することも珍しくありません。したがって、高速なデータトランザクション処理や、多数の小さなデータブロックへのランダムアクセスが頻繁に発生するような、スピードが重視されるデータワークロードにおいては、明らかにSSDが優れた選択肢となります。
さらに、SSDはHDDよりも物理的なデータ耐久性に優れるという特性があります。これは、回転するプラッターや移動する磁気ヘッドといった機械的な可動部品を持つHDDに対し、SSDには動く部品が一切ないことに起因します。可動部品がないため、物理的な衝撃や振動に強く、これによりデータの破損リスクが低減され、データストレージとしての信頼性が向上します。加えて、重量のかさむモーターやプラッターがないSSDはHDDよりも軽量であり、消費電力や発熱も大幅に少ないため、データセンターにおける電力効率向上やデータストレージ密度の向上にも貢献します。
データストレージのソフトウェア定義化を後押しする要因
あらゆるストレージシステムは、何らかの形でソフトウェアによって制御されています。しかし、近年の変化の本質は、このストレージ管理ソフトウェアが特定のハードウェアから分離され、よりポータブルになった点にあります。
これまでのストレージシステムでは、ソフトウェア機能は管理対象のハードウェアと密接に結びついていました。データ容量やデータアクセス性能が不足した場合、ハードウェア全体を交換する必要が生じ、それに伴いソフトウェアライセンスも再購入が強いられることが一般的でした。
さらに深刻だったのは、従来のストレージシステムアーキテクチャがデータが隔離されたサイロを形成していたことです。ベンダー固有の独自インフラストラクチャに依存していたため、新しいデータワークロードのためのストレージプロビジョニング、データの保護(バックアップ・リカバリ)、災害発生時のデータ復旧、ハードウェアのリフレッシュサイクル、異なるシステム間でのデータ移行といった、データライフサイクル全体に関わる管理が徐々に複雑化し、維持が困難になっていました。現在、データ量の急増と、増加し続けるデータを効率的に保管・活用する必要性というトレンドが顕著です。このデータトレンドと、市場に存在する従来のサイロ型アーキテクチャとの相互作用により、ストレージシステムは技術的に複雑で管理が難解なだけでなく、高価なデータストレージコストによって持続可能性が失われつつあるのが実情です。
SDS(ソフトウェア定義ストレージ)市場が現在の形になった背景には、いくつかの重要な技術的要因があります。一つ目は、x86コンピューティングアーキテクチャの継続的な性能向上です。x86アーキテクチャのパフォーマンスが向上し、ストレージ管理やデータサービスといった特定の機能に十分なコンピュートリソースを割り当てられるようになった結果、コモディティなx86サーバーをデータストレージ基盤として利用することが標準的になりました。
SDSを後押しする他の技術的要因としては、サーバー、デスクトップ、アプリケーション、ネットワーク(SDN)といったITインフラストラクチャ全体におけるx86仮想化の普及が挙げられます。仮想化は、仮想マシンやアプリケーションデータといった「データイメージ」を、実行されている物理ハードウェアから分離するという考え方をIT部門に浸透させました。この分離は、SDSの基本原則である「データストレージソフトウェアとハードウェアの分離」を受け入れる土壌を醸成しました。
クラウドテクノロジーの人気も、SDS市場を大きく後押しする要因です。大規模なクラウドデータセンターは、膨大なデータを効率的かつ低コストで管理するために、業界標準のコモディティハードウェアに基づいた、スケーラブルでコスト効率の高い新しいストレージアーキテクチャを必要としていました。これがSDS技術の開発と普及を加速させました。
SDSを後押しする他の技術的要因には、サーバー側のフラッシュストレージの進化や、サーバーに搭載されたメモリやストレージリソースを他の物理サーバーホストと透過的に共有できるようにするソフトウェア技術などが含まれます。これらの技術は、データアクセス性能の向上と、データストレージリソースの柔軟なプール化に貢献します。
これらの技術的な変化が複合的に作用した結果、サーバーとストレージハードウェアの境界線が曖昧になり、データストレージソフトウェアのポータビリティと柔軟性が大幅に向上しました。そして、これはデータ保管コストの大幅な削減という、多くの組織にとって見逃せない経済的なメリットをもたらしています。
SDSの実装多様性とデータストレージ評価の必要性
標準的なSDSの明確な定義が存在しない中で、SDS市場には様々な技術アプローチに基づく製品が生まれています。データコンサルタントとしては、これらの製品を「SDS」という包括的なラベルだけで判断するのではなく、それぞれの実装が持つデータ管理機能、性能特性、拡張性、データ保護機能、そして特定のデータワークロードへの適合性といった具体的な長所と短所を、組織のデータ要件と照らし合わせて評価することが不可欠です。
ソフトウェア定義ストレージ(SDS)のアーキテクチャタイプと評価指標
ソフトウェア定義ストレージ(SDS)の市場では、いくつかの異なるアーキテクチャアプローチが存在します。ここでは、「ハイパーバイザーベースのSDS」と「ハイパーコンバージドインフラストラクチャ(HCI)のSDS」という主要なタイプに焦点を当てます。
これらのタイプには重要な相違点と類似点があり、製品によっては複数のカテゴリにまたがる特性を持つものもあります。データストレージソリューションを評価する上で、データコンサルタントとしては以下の4つの基準が特に重要と考えられます。これらの基準に基づいて、各SDS実装のデータ管理における長所と短所を評価します。
柔軟性: 異なるデータワークロードの要件への適応性や、既存のデータインフラストラクチャとの統合の容易さ。
使いやすさ: データストレージリソースの管理、アプリケーションへのストレージプロビジョニング、およびデータの保護・リカバリ操作の簡便さ。
スケーラビリティとパフォーマンス: データボリュームの増加にどれだけ効果的に対応できるか、またデータフットプリントが拡大しても必要なデータアクセス速度(IOPS、スループット、レイテンシー)を維持できるか。
総所有コスト(TCO): データの保管、管理、およびアクセスにかかる長期的なコスト。
ハイパーバイザーベースのSDS
このカテゴリの先駆けとなったのは、VMware vSANを提供しているVMwareです。このタイプのSDSを提供するベンダーはVMware以外にも存在しますが、依然としてVMwareが市場を牽引しています。
vSANは、VMware vSphereというサーバー仮想化プラットフォームの構成要素として設計されています。そのため、vSphereの機能として動作し、vSphere環境で稼働する全ての仮想マシン(VM)に関連付けられたデータと連携しています。vSANのソフトウェアはVMware ESXiカーネル内で動作するため、仮想ストレージアプライアンスのように別途VMを必要とせず、ハイパーバイザーレイヤーで直接、基盤となる物理ストレージリソースを管理し、VMsへのデータアクセスを提供します。
ハイパーバイザーベースのSDSのデータ管理における長所(vSANの例)
vSANは、DIMMベースのフラッシュドライブ、PCIe、SAS、SATA、NVMeを含む幅広い種類のSSDおよびHDDに対応しています。これにより、ハイブリッド構成(HDDとSSDの併用)またはオールフラッシュ構成(全てのSSD)を選択することで、データのアクセス頻度や性能要件に応じたデータストレージ層を柔軟に構築できます。
vSANは高いスケーラビリティと優れたデータアクセス性能を両立します。vSphereのクラスタリング機能を通じてスケールアウトし、単一クラスタで最大64台のvSphereホストをサポートできます。各vSphereホストは約140TB、1つのクラスタ全体では8PBを超える物理データストレージ容量をサポートしており、大規模なデータボリュームにも対応可能です。パフォーマンス面では、各vSANホストは10万以上のIOPSを供給でき、クラスタ全体では数百万のIOPSを実現できるため、データ集約型アプリケーションや大量のデータトランザクションが発生するワークロードに適しています。これは、仮想化された環境におけるデータ処理性能を保証する上で重要な要素です。