ビッグデータ技術に欠かせない、ストレージについて考える

ビッグデータ技術に欠かせない、ストレージについて考える

『ビッグデータ』を処理する基盤システムのテクノロジーについて、ここでは特にストレージの視点からストレージに求められる機能についてみてみる。

ビッグデータ基盤の基本テクノロジー

最も重要な原則は分散処理であるということ。ここでいう分散は複数のサーバ間やストレージにデータを配置し、それぞれのノード毎での並列分散処理であり、データが地域をまたいで分散されているというものではない。

したがってデータは複数のサーバやストレージの中に重複しながら膨大な量を蓄積させており、それらを処理するためには高いスケーラビリティと耐障害性を実現しなければならない。

ビッグデータ ストレージに求められる機能

スケールアウト

膨大な量かつ様々な種類のデータが発生している中、蓄積データ量が増えた場合はシステムのアップグレードではなく、機器に『スケールアウト』機能を有する必要がある。なお、従来型のOLTP処理においては、依然と『スケールアップ』型の拡張も効果的ではあるが、ビッグデータ処理にはコスト面で十分な効果が得られない。

では、分散処理に適したストレージの機能として、『スケールアウト』(水平方向でのスケーラビリティ)型ストレージの課題は、各ノード毎で均等な負荷分散処理を実施する為のデータの配置である。特定のドライブ(Volume等)へのアクセスが集中することになれば、そこがボトルネックとなり、ストライプ幅を大きくしてもI/O パフォーマンスの向上にはつながらない。

そのような状況を回避するためには、アクセスが集中するデータをSSDに配置することで全体の性能向上につながる。SSDには一般的によく知られているライトレベリングの問題(書き込み時のフラッシュメモリーの性能劣化による寿命の問題)もあり処理するデータの属性(書き込み変更処理が多いのか?等)を考慮する必要がある。

容量管理とバックアップ

データの配置を管理者が手動で実施するようでは、ビッグデータでは現実的ではなく、システム側で自動再配置機能を有する必要がある。また、急激なデータ量の増加にも対応できるように、ストレージシステム内の容量管理やデータのバックアップ機能も重要になってくる。

現在は重複排除・圧縮機能はほとんどのストレージベンダー等で提供されているが、従来のデータバックアップ時のコストを下げるという目的に加えて、システムステム全体のパフォーマンスにも大きく影響を与える機能である。次に扱うデータが従来の構造化データ以外の非構造化データも対象となるため、データの蓄積方法やアクセス方法(プロトコールやファイルシステム)も重要なポイントとなる。

Hadoopのための分散ファイルシステムHDFS

現在ビックデータの処理基盤としてもっとも利用されているHadoop は、元々は大量の非構造化データを処理することを目的として開発されている。Hadoopでは専用の分散ファイルシステムとして HDFS が実装されている。HDFSはクラスターリソース管理機能を提供しているYARNの管理のもとで実行しておりHDFS領域内ではファイルを64MB単位のブロックに分割し各サーバやストレージ内で分散配置されている。

したがって、Hadoop とデータ連携するためには,従来のCIFS/NFS フォーマットからHDFS へ変換する必要がある。しかし、この部分については、各ストレージベンダーやHadoop 関連企業等でデータ連携のためのgateway が開発され発表されている。

今後のビッグデータ基盤におけるストレージに期待される機能

これまで様々な基盤のなかでボトルネックとなっていたのはストレージであった。データへのランダムアクセスに対して常にヘッドを移動させてデータを読むというHDDの構造上、どうしてもI/O遅延が発生してしまう。

ストレージ専用OS

しかし冒頭でも少し触れたフラッシュストレージでは100万IOPSという高性能なものも既に発売されており、今後はこれらのデバイスに置き換わることになる。

またデータ処理基盤の仮想化がもっと進み、それに伴いストレージ専用機がソフトウエア化され仮想基盤の中で仮想ストレージとして展開される。またストレージ専用OSがクラウドの中の仮想サーバの中で動いていて、クラウド間のデータ連携をコントロールする。

自動バックアップ・自動消去

データ属性を判断し再配置先を決定しデータライフサイクルに従って自動バックアップと自動消去を実施する。そんな機能が期待されている。またプロトコールについても、これまでのiSCSI/FCOE またはNFS/CIFS / HTTP 等 に加えHDFSを含んだマルチプロトコールが要求され、リアルタイム分析が可能となるハイパフォーマンスが期待される。

最後に

今回はビッグデータの処理基盤としてのストレージの機能について紹介しました。次回はオープンソフトウエアーストレージについて紹介いたします。

記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。