Open Enterprise Hadoop Roadshow に参加してきました!! ~新人マリコのドタバタ体験記~

Open Enterprise Hadoop Roadshow に参加してきました!! ~新人マリコのドタバタ体験記~

すみません!!初っ端からウソをついてしまいました。実際のレポートは、 鼻メガネで小太りの普通のおじさんです(これも一部ウソです)・・・でもこのイベント、本当に Hadoop を愛してやまない人々が集まる世界規模の祭典なんです。

Open Enterprise Hadoop Roadshow とは

Open Enterprise Hadoop Roadshow とは・・・
Hortonworks 社が開催している 最新の Hadoop 動向と導入事例、ベストプラクティスが聴けるイベントです。

今年の日本での開催はこれで終わってしまいましたが、今後他の都市(日本以外ですが・・・)でも開催されます。詳細はこちら

今回はリッツ・カールトン東京に約300名の聴衆を集めてのイベントでした。

さあ!ここから始まるよ!!

朝食付きの豪華なイベントです

セッションの目玉

なんといっても今回のセッションの目玉は  “全世界で活躍する Hortonworks エンジニアの話を直接聴ける” ということに尽きます!また、Hortonworks のサポートによる導入事例の紹介もあり、Hadoop の利用イメージをより明確に描くことができました。

オープニングセッションの話では、全世界のデータは2年で2倍に増えており、2044年には44ZBものデータが巷に溢れると予想されるというのです。この後の2つのユーザーセッションについては、その膨大なデータを有効に活用した事例が紹介されています。

1例目は、リクルートテクノロジーズです。
同社はリクルートグループにおける技術の中核を担う企業で、テレビなどのCMで放送されているリクルートのサービスの技術要素は全てこの会社が担っています。

Hadoop の検証は5、6年前から行われており、とりわけ HDP の評価は今年(2015年)の4月より実施され、数々の実績を上げているそうです。1PBにもおよぶ膨大なデータからリコメンデーション、画像解析などを行う技術については、同社が開発した 「Deep Learning による画像解析」と「Active Learning によるモデル改善」により高い成果を上げています。これを支える技術基盤としては、

  • Hive
  • Mahout
  • HBASE
  • Spark
  • ZooKeeper

などが使われています。

2例目は、最近プレスリリースでの発表でも話題になりましたが、Yahoo! Japan との協業についてです。ここでは、より深いチューニング技術の探求として、 Hive を高速に使う手法について紹介されていました。主な手法は、

  • LLAP
  • Tez
  • ORC + ZLIB
  • CBO
  • その他コンフィギュレーション設定

です。インメモリでのデータハンドリングに加え、データの列単位処理+圧縮アルゴリズムの適用、セッションの再利用(コネクションプール)などです。これらは、RDBでも適用されているチューニング手法ですね。Yahoo! のプレゼンターからは、「全ての成果(コード、テスト、ツール)はOSSへ還元」 することを明言していました。

両社とも、データレイク構想 ※ の下、Hadoop および Hadoop エコシステムを如何にして活用するかについて、積極的な技術投資が行われているようです。

また、上記の2例について、プレゼンターの方々が共通して口にしていたのは、Hortonworks のサポートレベルの高さでした。

※ データレイク : Hadoop 利用を前提とした巨大なリポジトリ。
http://itpro.nikkeibp.co.jp/atcl/idg/14/111000050/111000002/

【参考リンク】
http://techtarget.itmedia.co.jp/tt/news/1210/30/news02.html
http://jp.hortonworks.com/press-releases/yahoo-japan-selects-apache-hadoop-leader-hortonworks-enterprise/

HDPの大黒柱 – YARN / Ambari

HDP のツール群において、中心的な役割を果たすのが、以下の2つです。

  • YARN (Yet Another Resource Negotiator)
  • Ambari (Apache Ambari)

Hadoop は、YARN の導入をきっかけに利用度が大幅に増大しました。YARN 上で動作する 様々な Hadoop エコシステムが生まれてきました。
http://hortonworks.com/hadoop/yarn/

また、Ambari  は Hadoop クラスタの稼動管理、ノードの追加・削除など、多方面に活用できるツールです。
http://hortonworks.com/hadoop/ambari/

Hadoop クラスタの管理は、他のディストリビューションでは各々のツールが提供されていますが、Hortonworks では、Ambari で行っています。

Ambari は Hadoop クラスタを一元管理できますが、単独での利用はもとより、他のエコシステムと組み合わせることにより、様々な機能を提供します。以下はその一例です。

  • Ambari + Blueprint : クラスタ・インストールを自動化
  • Ambari + Ranger    : セキュリティ基盤の提供
  • Ambari + Stacks     : まだ Ambari で提供されていない新サービス管理機能の追加・
    既存サービスの新機能の導入
  • Ambari + View       : Ambari Web UI 内で様々なビューを提供
    (ユーザ/開発者/データアナリスト向け)

などです。Hadoop の効率的な運用は、この Ambari を如何に使いこなすかにかかっていると言っても過言ではありません。

Hortonworks DataFlow (HDF)

Hadoop のこれから – Apache Spark

多くの Hadoop エコシステムは MapReduce を便利に使うためのツールという意味合いが強かったのですが、Apache Spark (以下 Spark)は少し位置付けが異なります。

Spark は、分散処理のフレームワークというのは Hadoop と同様です。しかし、インメモリでデータを処理するので、MapReduce よりも高速であると言われています。Hortonworks は今後、Spark へフォーカスしていくとのことです。HDPにおける将来的な機能強化および連携としては、以下を予定しているとのことです(全ての項目がコミットされている訳ではありません)。

(1) データサイエンス分野

  •  インタラクティブノートブック用の Apache Zeppelin との連携
  •  R のサポート
  •  Mlib および ML Pipeline の追加的アルゴリズム

(2)プラットフォーム統合

  •  RDD と Spark のコンテキスト共有
  •  共有 RDD をHDFSメモリ層に保管

(3) ガバナンスとメタデータ

  • メタデータ用の Apache Atlas とパイプライン用の Apache Falcon のサポート

(4)セキュリティ

  •  事前構築された LDAP 認証
  •  Apache Ranger による承認管理
  • ワイヤ暗号化の強化

http://jp.hortonworks.com/hadoop/spark/

最後に

今回のコラムは、イベントについてのご紹介でしたが、Hortonworks のサイトでは、様々なツールの紹介およびチュートリアルが用意されています。また、Hadoop の機能を簡単に体験できる Sandbox も提供されています。もし興味があればお試しください。

[HDPの概要]
http://jp.hortonworks.com/hdp/
[チュートリアル]
http://jp.hortonworks.com/products/hortonworks-sandbox/#tutorial_gallery
[Sandbox]
http://jp.hortonworks.com/products/hortonworks-sandbox/#install

次回のコラムもお楽しみに。

記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。