MapR Hadoop を使ってみよう!!

MapR Hadoop を使ってみよう!!

2016.03.16

MapR Hadoop をご存知でしょうか? Hadoopとは、大規模データの蓄積・分析を分散処理技術によって実現するオープンソースのソフトウェアです。MapR Hadoop とは、企業での使用のため高可用性が保たれているように設計されているMapR 社が提供しているHadoopディストリビューションです。高可用性の他にも Apache Hadoop の HDFS にはない便利な機能が用意されています。MapR によって、Hadoopはミッションクリティカルな企業向けビッグデータ分析基盤として利用することが可能になりました。なので、今ビッグデータを活用したい企業の注目の技術なのです。

MapR Hadoop とは

Hadoop ディストリビューションのひとつに、MapR Hadoop というディストリビューションがあります。MapR 社が提供している Hadoop ディストリビューションであり、企業での使用を想定し高可用性が保たれていることが特徴のひとつです。

MapR HadoopとApache Hadoopの違い

Apache Hadoop との大きな違いは「データを溜める所」 です。MapR Hadoop で「データを溜める所」は、HDFS ( Hadoop Distributed File System ) を改良した MapR-FS になります。ガベージコレクションの発生をなくすために MapR-FS は C++ で作成 していることが特徴のひとつですが、もうひとつ、「NFS マウントができる」 という特徴も持っています。

HDFS ではファイル操作するのに、hadoop コマンドを使わなければならなかったり、sqoop や flume といったものを使ったりする必要がありました。「NFS マウント」できるMapR-FS では、Linux 標準コマンド を使用して、MapR-FS のファイル操作が可能 となるので、とても便利です。
(「Tab 補完」も使えるので便利です )

MapR 社からは、MapR Hadoop をお手軽に触れるように sandbox と呼ばれる 仮想アプライアンス が提供されています。今回は、sandbox を使って、NFS マウントによる MapR-FS の操作 を紹介します。

試してみる前に

用意するもの

  1. VMware Workstation Player
    (https://my.vmware.com/jp/web/vmware/free#desktop_end_user_computing/vmware_workstation_player/12_0 )
  2. MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova
    (https://www.mapr.com/products/mapr-sandbox-hadoop/download)

事前準備

  1. VMware Workstation Player をインストール
  2. MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova の展開

(1)「仮想マシンを開く」をクリックします。

(2) ダウンロードした「MapR-Sandbox-For-Hadoop-5.0.0-vmware.ova」を選択し、「開く」をクリックします。

(3) 展開が完了後、「仮想マシンの再生」をクリックします。

MapR Hadoopの操作

NFS Gatewayサービスの確認

(1) https://XXX.XXX.XXX.XXX:8443 にアクセスします。
※ MCS (MapR Contorol System ) というGUI ベースのMapR Hadoop 管理画面に繋がります。

(2) MCS から「NFS Gateway サービス」が稼働中であることを確認します。

NFS マウントを用いた MapR-FS の操作

※NFSマウント実行時はLinux標準コマンドを使用してMapR-FS上のファイルを確認できますが、NFSマウントを解除した時にはLinux標準コマンドを使用してMapR-FS上のファイルを確認できないことの体験です。

(1) MapR Hadoop へ ssh 接続します。
※ユーザ名:root、パスワード:mapr

NFS マウントを用いた MapR-FS の操作

(2) エクスポートされているディレクトリを確認します。
#showmount –e

(3) NFS マウントします。
マウントポイントの作成
#mkdir -p /mapr/demo.mapr.com

マウント
#mount -t nfs -o vers=3,proto=tcp,nolock localhost:/mapr /mapr/demo.mapr.com

確認
#mount

(4) マウントポイントに移動し、「nfstest」ディレクトリを作成します。
#mkdir nfstest

(5) /etc 配下のファイルを「nfstest」ディレクトリにコピーします。
#cp /etc/* nfstest

(6) ls コマンドにて「nfstest」ディレクトリを確認します。
#ls nfstest

(7) hadoop コマンドにて「nfstest」ディレクトリを確認します。
#hadoop fs –ls /nfstest
→ (6) と同じファイルが確認できます。

(8) アンマウントします。
#umount /mapr/demo.mapr.com/

(9) ls コマンドにて「nfstest」ディレクトリを確認します。
#ls –l /mapr/demo.mapr.com.nfstest
→ アンマウントされているのでエラーとなります。

(10) hadoop コマンドにて「nfstest」ディレクトリを確認します。
#hadoop fs –ls /nfstest

→ (8) と同じ内容が表示され、MapR-FS 配下の「nfstest」がなくなった訳ではないことが確認でき、(10) では、NFSマウントがされていなかった為に表示できなかったことがわかります。

ファイルの編集

HDFS では、ファイルを編集する時、下記ステップを踏む必要があります。

  1. hadoop fs –get コマンドで、ローカルに移動
  2. ファイル編集
  3. hadoop fs –put コマンドで、HDFSに移動

MapR-FS では、NFS マウントを利用できファイル操作が簡単になります。また、Linux標準コマンドをそのまま使用できるので、vi コマンドを使用することでファイルの編集も簡単にできます。

以上のように、HDFS では手間取ることもあるファイル操作が、MapR Hadoop を使うことで格段に扱いやすくなります。企業での使用を前提として設計されており、より便利になっている MapR Hadoop をぜひ使ってみてください。

記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。

この記事を読んだ人がよく読む記事