IT業界の新時代で活躍するトレジャーハンターを目指して!Hadoop利用のススメ

IT業界の新時代で活躍するトレジャーハンターを目指して!Hadoop利用のススメ

みなさん小学生の頃、宝探しはお好きだったでしょうか。今、IT業界はビッグデータ時代という新しい時代に突入し、誰もが膨大なデータから宝 = 『新しい気付き』を探すことができる時代となりました。 Hadoop技術はもとよりデータ分析技術を利用した、宝を発見する方法を紹介いたします。

トレジャーハンターって?

まず、「トレジャーハンター」というキーワードを聞いてパッと思い描くことは何でしょうか?

「インディ・ジョーンズです」という方もいらっしゃれば、「徳川埋蔵金です」という方もいらっしゃるかもしれません。はたまた、まったく他のことを思い描く方もいらっしゃるでしょう。トレジャーハンターの広義の意味としてWebサイトでは「主に人の手の入ることのない場所に赴き、遺された財宝を探し出す」との情報がありました。ひとまずこのコラム内では、“今までは誰も見ていなかったような場所から宝を探し出す人” と定義します。

ビッグデータ活用の時代

次に、「IT業界における新時代」とはどのような時代でしょうか。このコラム内では、ここ数年、巷をにぎわしている「ビッグデータ」の時代ということで考えてみましょう。そもそも、巷をにぎわしているビッグデータというものは、単純にファイルサイズが大きいデータのことだけを指しているわけではありません。下図にあるようにさまざまな特性を持っているデータのことを指しています。

すでに、TwitterやFacebookなどのSNS上では日々大量のデータが生成されています。また、SNS上の情報は形が定まっていない非構造データの代表的なものです。さらに今後はInternet of things と呼ばれる IoT技術が進歩し、ありとあらゆるものがインターネットで繋がる世界となるでしょう。インターネットで繋がるということは、そこに膨大なデータが生成されるということです。

つまり、IT業界における新時代とは、“さまざまな特性をもつデータが膨大に生成されるという時代” とこのコラム内では定義します。今後、膨大なデータが生成され続けますが、データを持っているだけでは、何も生み出されず、宝の持ち腐れとなります。膨大なデータを価値あるものにするためには、膨大なデータから、『新しい気づき』 を発見し、業務、組織、社会に貢献していく必要があります。

つまり、“IT業界の新時代で活躍するトレジャーハンター” とは、“さまざまな特性をもつデータが膨大に生成される時代で、今まで誰も見ていなかった膨大データから、『新しい気づき』を発見し、業務や組織、社会に貢献する人” ということです。

「宝」を発見する技術、Hadoop

では、どのように、宝 = 『新しい気付き』 を発見していくのでしょうか。まず、『新しい気付き』を得るためには、材料 = 「膨大なデータ」が必要です。また、『新しい気付き』を発見するためには早さも必要になります。膨大なデータを格納する場所と高速処理できる場所の両方を実現できる方法はすでに世の中にあります。それが、Hadoopと呼ばれる技術です。

Hadoopの基本要素

Hadoop技術を利用するためには、特別なサーバは必要ありません。世間一般に存在しているマシンを複数台用意するだけで利用できます。また、Hadoop技術の基本要素はたった2つだけです。

データを溜める場所である「分散ファイルシステム」と、データを処理するフレームワークである「YARN」です。“データを溜める機能” と、“データを処理する機能” という非常にシンプルな構成になっており、ビッグデータ時代において必ず主流となる技術です。Hadoop に関しては、弊社でもHadoopディストリビューションであるMapR社やHortonworks社のトレーニングを提供しておりますので、ご興味がある方がいらっしゃいましたらぜひともご参加ください。

Hadoop技術を利用することで、膨大データを溜めておくことができ、いつでも簡単に、素早く、『新しい気付き』を得ることができるので、トレジャーハンターにとって、Hadoop技術は非常に使い勝手の良いアイテムのひとつです。

Hadoop技術を利用することで、材料 = 「膨大なデータ」を獲得できることが明らかになりました。ただし、データを獲得しただけでは、『新しい気付き』は発見できません。『新しい気付き』を発見するためには、材料 = 「膨大なデータ」から、採掘 = 「データマイニング」 する必要があります。では、どのように、採掘 = 「データマイニング」すればよいでしょうか。データマイニングには、基本的に3つのステップが必要です。

  1. 準備する
  2. 集める
  3. 分析する

1 準備

1つ目のステップは「準備」です。何を準備するのでしょう。

採掘 = 「データマイニング」には必ず“目的” が必要です。そして目的に向かって具体的なアクションを実行していく必要があります。つまり、最初のステップでは、データマイニングの目的を明確にすることと、誰がどのようなアクションを実行するのか、ということを明確にします。その次に、データツリーを作成します。データツリーは、分析すべきデータの全体地図です。山に登る時に登山マップが必要なように、データマイニングにもどのようなデータの全体を把握できる全体地図が必要です。

2 集める

2つ目のステップは「集める」です。何を集めるのでしょうか。

Hadoopに溜めておいたデータからデータマイニングに必要なデータを抽出し、データを集めます。データを性質で分けると ”定量データ” と “定性データ” の2種類です。

定量データとは、数量として表されるデータで、定性データとは、数量として表されないデータです。例えば、アンケート調査などで性別を回答いただく場合、「男性は1、女性は2」という表現を使ったりします。この時の1、2は数字ですが単なる記号として使われており、この例の場合の「1」や「2」は定性データです。世の中にあるデータというのは、定性データの方が多いです。定量データ、定性データを抽出する段階においては、1つ目のステップで作成したデータツリーをもとに、漏れのないようにデータを抽出します。

3 分析する

3つ目のステップは「分析する」です。どのように分析するのでしょうか。

分析する時には、大切なポイントが3つあります。1つ目のポイントは、「分析は全体把握からはじめる」ということです。なぜなら、細部の分析からはじめてしまうと、大局が見えなくなりデータマイニングの目的から外れてしまう可能性があるためです。2つ目のポイントは、「定性分析と定量分析を組み合わせる」ということです。

データマイニングから『新しい気付き』を発見した後は、『新しい気付き』をアクションに繋げる必要があります。アクションに繋がる分析のためには、定性分析が役立ちます。3つ目のポイントは、「定番の分析手法を組みわせる」ということです。定性分析、定量分析ともに、定番の分析手法というものが存在します。Webなどで「QC7つ道具」や「新QC7つ道具」というキーワードで紹介されているものが定番の分析手法に相当します。

各7つ道具のお話はまたの機会で紹介させていただきますが、これら定番の分析手法を活用することで『新しい気付き』を効果的に発見することができます。

終わりに

IT業界の新時代でのトレジャーハンターとして、膨大なデータから『新しい気付き』を発見し、業務や組織、社会に貢献するアクションを実行できるようになるには、これまでお話してきたHadoop技術と、データ分析の基本的な考え方がベースとなります。ぜひともご活用ください。分析して発見した『新しい気付き』をどのように表現し、伝えていくのかについても基本的な考え方がありますが、またの機会に紹介したいと思います。

また、Apache SparkやApache Drill、Rを用いたテキストマイニング技術、VOC活用術など個々の技術についても、機会があれば執筆させていただきたいと考えておりますが、本コラムは、みなさんがビッグデータ時代のトレジャーハンターを目指していただけるきっかけとなれば幸いです。みなさん、ビッグデータ時代で活躍できるトレジャーハンターを目指しましょう。

記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。