ビッグデータ利活用概要

ビッグデータ利活用概要

2015.09.09

ビッグデータを利活用したいが、一体何から始めたらよいのかが分からない人は結構いらっしゃいます。今回はそんな人のためにデータ分析の各工程で行うことやポイントをまとめてみました。分析だけと思われがちですが、ビジネス課題の理解やプレゼンテーションまで結構幅が広いのです。

背景

ビッグデータという言葉が世に広がってそろそろ4,5年位になります。人によってその定義やイメージは異なりますがポイントは3つのV(Volume,Velocity, Variety)またはそれに2つのV(Veracity,Value)を加えた5つのVで考えるとイメージがつきやすいです。つまり、「データが膨大で、ものすごい速さで生成され、様々なフォーマットで、更に正確で、そこから価値を創出する」という内容で説明できます。

「データを分析して価値を創出する」という考え方は特に新しいものではなく、かなり前からありましたが、今日のようにビッグデータというキーワードがこれ程までに注目された背景は何なのでしょう?1つはクラウドコンピューティング環境が世に広まったことによりそこにデータが蓄積されたことや、他にはIOT (Internet of Things) でセンサーを始めとする様々な機器がインターネットに接続されことも背景として考えられます。

最近「膨大なデータがあって何かに役立てたいのだが、どのようにして良いかが分からない」というご意見をよく耳にします。ただ、闇雲にデータを分析しても良い結果は期待できません。データを利活用するには工程があるのです。それは、「(1)ビジネス課題を理解して分析の方向性を決定する」、「(2)必要なデータを収集する」、「(3)収集したデータを分析が可能な状態に加工する」、「(4)分析ツールを用いてデータを分析する」、「(5)分析結果をビジネスの視点から読み解き依頼元にプレゼンテーションする」、という内容です。今回はビッグデータを利活用するために行われる上記の工程と関連する技術などを順番にご紹介して行きます。

ビジネス課題を理解して分析の方向性を決定する

まず解決すべきビジネスの問題を明確にします。データ分析はあくまでそのための手段の1つであると認識しましょう。よく「データがここにたくさんあるので何かに役立てたい」と分析ありきに考える方もいらっしゃいますが、やはりビジネスの問題を明確にしない限り「犯罪者の90%以上が犯罪の24時間前までに米を食している」といったナンセンスな結果しか得られないこともあります。

ビジネスの問題は全社的で大規模なものから小規模なものまで様々ですが、優先順位や着手しやすいものから考えると良いでしょう。例えば、「売上を向上させたい」、「潜在的な顧客のニーズを発見したい」など具体的に絞り込んで行きます。
また、分析に必要なリソース(人、物、カネ)、期間、テクノロジーなどを計画します。

これらの準備が出来次第、データを収集します。

必要なデータを収集する

従来の社内データのみを使用していたデータ分析と異なり、ビッグデータではクラウドネットワーク上の社外のデータも収集します。SNSで書き込んだテキスト、GPSデータ、医療機器から収集したMRやレントゲンなどの画像、温度センサー、政府や自治体が公開しているオープンデータなどがあります。大量なデータを扱うことにより分析精度が向上したり、今まで気づかなかった相関関係を発見したりすることもできます。

昨今は「データレイク」という概念が浸透しつつあり、まずはクラウド上の様々なフォーマットのあらゆるデータを収集してから必要なデータを抽出するといった考え方もあります。収集するデータの種類には構造化データと非構造化データがあります。構造化データはエクセル形式のファイルやRDBのテーブルなどで、比較的分析がしやすいデータフォーマットですが、これらは全体のうちのほんの一部でしかなく大半は、テキスト、画像、音声などの非構造化データで分析するには加工が必要なものです。

収集したデータを分析が可能な状態に加工する

収集したデータはすぐには分析できません。その中にはノイズが含まれていたり、文字コードやフォーマットなどが統一されていなかったり、不必要なデータが含まれていたりするので、分析できる状態に加工する必要があります。この作業を「データクレンジング」と言います。データの収集と加工は各工程でも最も時間を要し、全体の7割~8割とも言われています。データの形式によって処理が様々なのも悩ましいところです。

データ加工を行うソフトウェアの総称を「ETLツール」と呼びます。E(Extract)はデータを抽出、T(Transform)は抽出したデータを分析できるフォーマットに変換、L(Load)はデータベースに格納するという意味です。
基本的な方針としては非構造化データを構造化に変換する、または非構造化データのまま処理することも考えられます。大量なビッグデータの場合は分散コンピューティングにより並列に処理を行うHadoopや、列志向やキーと値により大量のデータを処理するNoSQL(Not Only SQL)などの新しい技術も検討します。

このように膨大なデータを収集し加工する技術は日進月歩でこの工程だけでも様々な技術が存在します。

分析ツールを用いてデータを分析する

データが分析できるように加工されたらいよいよ分析を行います。本格的な分析の前にまずデータをグラフなどで可視化します。データの値だけでなく可視化することによって全体像を掴みます。そして、本格的に統計手法を用いたモデルを構築します。モデルには入力する変数と出力される値があります。例えば、年齢、学歴、性別、住所などを入力すると収入の予測値を出力するなどです。

構築したモデルには統計に基づいた精度があり、これにより当初の仮説をどのくらい信用できるかを検討します。
データの可視化や統計モデルを構築するツールとしてはTableau、Spotfire、QlikviewなどのBIツールが良く知られています。SASやSPSSなど本格的な商用の統計ツールもありますが、やはりオープンソースのRは簡単に手に入れることができ、最も主流なツールであると考えられています。

Rはデータの可視化を始め、様々な統計モデルを構築できます。ただ、大量のデータを処理することは現状困難です。したがって、加工したデータを意思決定が変わらない程度までサンプリングするのが現在の主流の手法です。ただこの方法はデータを収集してから分析が終わり意思決定を行うまでのタイムラグが発生します。
データ収集から分析、意思決定までの時間を短くするためにリアルタイム分析の実現が求められています。機械学習や人工知能なども今後注目される分野でしょう。

分析結果をビジネスの視点から読み解き依頼元にプレゼンテーションする

分析が終わるとその結果と当初の仮説を比べビジネスとしての推奨事項を検討します。そして、経営陣などの依頼元にたいしてプレゼンテーションを行います。

割と軽視しがちかも知れませんが、いくら分析が上手く出来てもプレゼンテーションが上手くいかなければ経営陣に分析の成果を伝えることはできず意味のある分析だったとは言えません。その意味でこの最後の工程もとても重要なのです。

プレゼンテーションはパワーポイントなどに6~7枚位、時間は10~15分位にまとめます。プレゼン資料には、具体的なビジネスインパクトを含めた推奨事項やグラフによる裏付けなどを含めます。
プレゼンテーションのフェーズが終わると分析を本番環境に移行したり、最初の「ビジネス課題の理解フェーズ」に戻り新しい問題に着手したりします。

以上がビッグデータを利活用するための各工程です。

記事は、予告なく変更または削除される場合があります。
記載された情報は、執筆・公開された時点のものであり、予告なく変更されている場合があります。
また、社名、製品名、サービス名などは、各社の商標または登録商標の場合があります。