MapRとHortonworksのいいとこ自慢 ~なんて…ちょっと上から目線で失礼します~

MapRとHortonworksのいいとこ自慢 ~なんて…ちょっと上から目線で失礼します~

そういえば…3つ年上なんですが、私と比べ物にならない程のイケメンなんですよね。同じ一族の血を引いているとは思えないほど・・・あ。違った。従兄(いとこ)自慢ではなくて、いいとこ自慢でしたね。しかも私の事ではなくて… (汗) ということで今回は、当社とお付き合いのある Hadoop ディストリビューターである、MapR 社と Hortonworks 社の Hadoop ディストリビューションについて、勝手にいいとこ自慢しちゃいます。あくまで私見ですので、両社には全く責任はございません(キッパリ)。ちなみにイケメン従兄のお話は真っ赤なウソです (笑)

そもそも Hadoop ディストリビューターって何?

Hadoop といえば、米国の Apacheソフトウェア財団 が開発を行っている オープンソースの分散フレームワーク であるというのはご存じの方は多いと思います。そして、同財団が開発・提供している Hadoop および Hadoop エコシステム は無償で利用することができます。また、同財団が制定しているライセンスに準拠すれば商用利用も可能です。

しかし、それらを自前で導入しようとした場合、Hadoopと Hadoopエコシステムの運用や管理を行うための他のソフトウェアの導入も含め、自分達で諸々の面倒な作業(インストールをはじめ、いわゆるバージョン間の相性の検証などなど)を行う必要があります。

Hadoop に限らずOSSの世界では、こういった手間を省き、利用者が使いやすい環境を提供 するために、開発者や企業が必要と思われるモジュールを予め取り纏めて パッケージ化 して提供しています。このパッケージ化された提供物を 「ディストリビューション」 と呼び、その提供者を 「ディストリビューター」 と呼んでいます。

ちなみに、パッケージ化される対象である、元々のソースやモジュール は 「アップストリーム」 と呼ばれています。このとき、ディストリビューターは、他のディストリビューターとの差別化を図る目的などにより、多種多様なディストリビューションを提供します。

例えば、取り込むアップストリームのバージョンを検討するときに、新しい機能が実装された 最新のもの を取り込むか、あるいは 安定稼働 しているバージョンのものを取り込むのか。それによってバンドルする周辺ソフトウェアのバージョンやソフトウェアスタックも異なってきます。

そのため、同じ Hadoop と周辺ソフトウェアをパッケージ化しても、 MapR と Hortonworks とでは、ディストリビューションの構成は異なっています。

オリジナルは黄色のゾウさん。このあと、何色に染まる?? (http://hadoop.apache.org/)

MapR のいいとこってどんな所?

MapR の分散ファイルシステムは、同じ一族(Apache 族!)の血を引いていますが、ちょっと違います。

まず、外部のデータソースを HDFS へ変換しないと Hadoop で使用することができないという、Hadoop 最大の弱点を克服した 独自の分散ファイルシステム である MapR-FS が実装されています。このファイルシステムは NFSマウント もできるため、従来のLinux 環境から通常のファイルシステムと同様に操作できるというメリットがあります。その他にも HDFS では実現できなかった様々な機能が実装されています。※1

また、上記を含め、パフォーマンスの改善 のために、オリジナルのHadoop では Javaで記述されていたものが、全体的に C++ で書き直されています。 しかし、オリジナルのHadoop へのインターフェースは 互換性が保たれている ため、その他のHadoop エコシステムも何の違和感もなく動作することができます。

※1 HDFS vs. MapR FS – 3 Numbers for a Superior Architecture
 – Whiteboard Walkthrough
https://www.mapr.com/blog/hdfs-vs-mapr-fs-3-numbers-superior-architecture-whiteboard-walkthrough

MapR は赤のゾウさん (https://www.mapr.com/blog/mapr-debuts-new-logo-and-web-site)

Hortonworks のいいとこってどんな所?

以前のコラム でご紹介しましたが、Hortonworks の設立者の大半が Hadoop のコミッター (主要開発者) であり、PMC (Project Management Committee) のメンバー であるため、同社の提供するディストリビューションは 完全なOSSの形で提供 されます。よって、オリジナルのアップストリームの文献やコミュニティを活用でき、ディストリビューションの差異を気にすることなく、広く情報を集めることができます。

また、ディストリビューションの バージョンアップのサイクルが早く、最新版のモジュールやバグフィックス、機能追加が常に取り込まれています。 ※

※ HORTONW0RKS DATA PLATFORM (HDP)
http://jp.hortonworks.com/products/hdp/

Hortonworksは緑のゾウさん (http://jp.hortonworks.com/)

どっちにしようかな?

同じ一族(Apache族!?)の血を引いているとは思えないほど ディストリビューションのカラーの違い がありましたね(Hortonworks は緑 で、MapRは赤 で・・・そうじゃなくて・・・)。

今後主流となると思われる Spark の実装 がどのようになるのかも注目すべきでしょうね。ちなみに、前回も書きましたが、両社ともPC上で動作する Sandbox が提供されています。

MapR

 Hortonworks

さて、あなたは何色のゾウさんがお好みですか?え! 全部使っちゃう!?

記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。