ビッグデータとは?AIとの関係性や解析手法について
18/05/13 14:24:10 19/03/31 16:29:48
ビッグデータ案件の一覧(随時更新)
ロボットプログラミング、人工知能、ディープラーニング、といったIT用語はニュースなどでも目にする機会が多く、近年注目されている技術です。そして、こういった注目を集めている技術のうちの一つがビッグデータになります。
ビッグデータってネットや新聞でもよく見るけれど、どのくらいデータが多いとビッグデータ?そもそもデータ容量の問題?と疑問を持たれている方は多いかと思います。そこで、このページではビッグデータの定義、歴史、解析手法などを紹介していきます。
ビッグデータとは?
ビッグデータとは、従来までのデータベース管理システムなどでは管理するのが難しいほど、膨大な情報量を含むデータ群のことです。また、ここから派生して、仕組みが複雑で管理が難しいデータ群のこともビッグデータと呼びます。
どのくらいの量だとビッグデータという?
結論から言うと、どのくらいの量からがビッグデータという定義は存在しないのです。量が多くて扱いにくい、量が多くなくても扱いにくいデータをビッグデータと呼ぶ場合もあるので、案外ビッグデータの定義は曖昧です。
そのため、ビッグデータの定義としては「量が多かったり複雑だったりして扱うのが難しいデータ」と考えておくとわかりやすいでしょう。ビッグというワードに捉われて単に大きいデータだと思っていると、混乱しがちになります。
ビッグデータは大きいという点よりも、むしろその複雑さに注目が集まることが多いです。ちなみに、データには大きく分けて「構造化データ」と「非構造化データ」が存在します。具体的には、以下のように分類されます。
構造化データ
- CVSファイル
- 固定長ファイル
- Excelファイル
非構造化データ
- 規則性あり
- XMLファイル
- Jsonファイル
- 規則性が微妙
- テキストファイル
- 規則性なし
- 画像ファイル
以上のように分類されますが、ネーミングから想像できる通り、構造化データは厳格な規則性があり、扱いやすいデータです。CVSファイルなんかは列と行があるので、システム上扱いやすいことはなんとなく想像が付くかと思います。
構造化データに関しては、ビッグデータの解析技術がなくても、従来までの技術で充分対応可能です。
一方で、非構造化データは規則性が少ない、もしくはないデータで、取り扱いが困難です。ビッグデータ解析技術が注目されていますが、その対象となるのは非構造化データの方になります。
そして、非構造化データのなかでもビッグデータ解析技術の対象となるのは、規則性があるものです。残念ながら、テキストファイルと画像ファイルに関してはまだ分析技術が追い付いていない状況です。
ビッグデータ解析について詳しくは後述しますが、「非構造化データの中でも規則性のあるデータを分析し、業務改善に活かすための技術」と定義付けられます。
ビッグデータの歴史は?
ビッグデータが注目されるようになったのは、2010年頃からです。クラウド化が注目され始めた時期とちょうど同時期で、クラウド化された大量データをうまく集約して企業等が活かすということで注目され始めたからです。
ビッグデータとクラウドコンピューティングは関連技術として注目され始めました。特にここ5年程度は、ネットニュースや新聞で紹介されることが多々あります。
ちなみに、ビッグデータとして扱う情報の中身は様々なのですが、ニュース等で紹介されるのは以下のようなものが多いです。
- 消費者の住所、性別、年齢
- 顧客の購買履歴
- ネットで検索されたワード
- 顧客のポイント使用履歴
- 顧客がアクセスしてくる位置情報
こういった情報が頻繁に注目されます。なぜこれらのデータがビッグデータとして分析されるのかというと、ビッグデータは企業や官公庁が業務改善のために利用することが多いからです。
ビッグデータの分析対象となるデータや利用目的は様々ですが、業務改善に利用して収益化を狙う企業が多いので、その結果対象となるデータも上記のような種類が多くなります。
ビッグデータのメリットは?
ビッグデータの利用目的は、結局のところ「マーケティング」に集約されます。つまり、蓄積されたデータから傾向をつかみ、それを活かして収益化等を行います。ビッグデータを活用するためにはIT技術が不可欠ですが、それと同時に「統計学を応用したマーケティング技術」も不可欠と言えます。
ビッグデータとして解析したデータをそのままにしていてもあまり意味がないので、統計学やマーケティングによってそこから業務に役立つ傾向を読み取り、ビジネスに活かします。これによって企業などは無駄なく資源や労力を配分することができ、利益につながるということです。
実際ビッグデータ解析をサービス提供しているIT企業の多くは、顧客企業のマーケティング、業務改善を目的としています。日本国内でも多くの企業がビッグデータ解析を導入しており、特に大手企業のように膨大なデータを集めている企業では、今や必要不可欠な技術となっています。
事業の規模が大きいと、集約するデータが多く、またそれを事業に反映させる際の規模も大きくなります。つまり、分析結果によって投入する資源や労力も大きいのです。ビッグデータによって業務効率化できると、事業が大きい分大幅に利益が増え、損失が減ります。
ビッグデータ解析とは?
ここまでビッグデータの利用目的や歴史について見てきましたが、ここからはより詳しく技術内容について紹介していきます。ビッグデータの利用目的は事業の効率化、無駄の削減ということでしたが、具体的にどのようにビッグデータを分析するのでしょうか。
具体的な分析手法としては、以下の5つが有名かつ効果的です。
- クロス集計
- ロジティック回帰分析
- 決定木分析
- アソシエーション分析
- クラスター分析
ビッグデータ解析の詳細に関しては事項で紹介します。
ビッグデータ解析の手法は?ツールは?
1.クロス集計
まず一つ目のクロス集計に関してですが、これはECサイトのビッグデータ分析に頻繁に利用されます。この手法では2、3のデータに対象を限定し、集計、分析を行います。分析手法の難易度は比較的低く、たとえばアンケート結果の集積から業務改善を狙います。
年齢、性別、職業などを横軸に置き、縦軸にその企業特有の選択肢を置くケースが多いです。イメージとしては、横軸に「会社員」、「フリーランス」、「主婦」、「学生」、といった項目を設け、縦軸に通販サイトを利用する頻度「月に1回程度」、「月に2、3回程度」、「週に1回程度」、「週に2、3回程度」、「ほぼ毎日」、といった項目を設定します。
これによって、人の属性ごとの通販サイト利用状況を知ることができます。
2.ロジティック回帰分析
ロジスティック回帰分析は、物事の発生確率を予測する分析手法になります。特定の物事が発生した状況を「1」、発生しない状況を「0」とします。そして、シチュエーションごとに0~1の間でその物事が発生する確率を表にしていきます。
3.決定木分析
決定木分析は、原因と結果を枝分かれさせながら分析していく手法です。たとえば、ある商品を購入した人数を大元とし、そこから属性ごとに枝分かれさせていきます。
例としては、特定の商品を購入した人を男女でまず枝分かれさせ、さらにそれを1回目の購入者とリピーターとで枝分かれさせます。これによって、商品購入者の男女比はどれくらいか、リピーターはどのくらいの割合で存在するのか、といったことがわかります。
4.アソシエーション分析
アソシエーション分析は、実店舗や通販サイトで特定商品の購入者が一緒に購入している商品を分析する手法です。これによって、「何と何が一緒に買われることが多いのか」ということがわかります。
分析結果としては、一見してわかりやすいセット(豚肉とピーマン、ベビーミルクと紙おむつ)などもあれば、一見すると何の関連性もなさそうなセットが導き出されることもあります。
一見して関連がなさそうなセットが抽出された場合、そこからマーケティングに結びつけるのは人間の仕事になります。そして、実店舗の場合は一緒に購入されやすい商品を近くに置いたり、通販サイトの場合は関連性のある商品としてユーザーに表示する、といった活かし方ができます。
関連性の高い商品同士が表示されることがもちろん多いのですが、「風が吹けば桶屋が儲かる」のようにまったく関連性のない商品が抽出されるのも面白い点です。なぜその商品がセットで購入されることが多いのか、これはコンピューターではわからない部分なので、人間の想像力を働かせる部分です。
5.クラスター分析
最後にクラスター分析ですが、これは消費者の趣味趣向を分析する手法になります。たとえば、通販サイトを利用して商品を頻繁に購入する消費者がいたとして、その人が購入している商品を類似性ごとに分類していきます。
特定の商品のみだとその人の趣味趣向まではわかりませんが、複数の商品購入履歴から類似性によって分類していくことによって、その人の趣味趣向を分析することが可能になります。
以上の5つの分析がビッグデータ解析の基本となります。実際にこれらの分析結果を表した表はネット上に公開されているものもあるので、興味のある方はぜひ検索してみてください。
次にビッグデータを解析するためのツールですが、ツールは多数存在します。ビッグデータ解析は専門業者に依頼して大々的に行う場合もあれば、インターネット上に無料で配布されているツールを利用する場合もあります。
ここでは、手軽に利用できるという理由から無料の分析ツールを紹介します。具体的には、以下の3つが無料で利用できる優良ビッグデータ分析ツールです。
- Google Data Studio(グーグルデータスタジオ)
- Microsoft Power BI(マイクロソフトパワーBI)
- Qlik Sense Cloud(クリックセンスクラウド)
以上の3つが無料で利用可能な有名分析ツールになります。
1.Google Data Studio(グーグルデータスタジオ)
グーグルデータスタジオは、web業界で特に人気のツールになります。アナリティクスやアドワーズをサイトマーケティング目的に利用している企業は多いかと思いますが、これらのツールと連動させてグーグルデータスタジオを使用することができます。
インターネット上の検索ワード数、ユーザー情報、ページ閲覧者数、滞在時間、リンクを押した回数、などの情報を網羅的に把握して業務改善に活かすことができるので、web業界のビッグデータ解析にグーグルデータスタジオは欠かせません。
2.Microsoft Power BI(マイクロソフトパワーBI)
マイクロソフトパワーBIも、他のマイクロソフトのツールと連動できる点で大きなメリットがあります。やはり大手企業のツールは他のツールとの連動性が高いので、トータルで分析でき、またマイクロソフトパワーBIは可視化に力を入れている分グラフィカルに情報がわかります。
3.Qlik Sense Cloud(クリックセンスクラウド)
クリックセンスクラウドもビッグデータ解析ツールのなかでも優秀なツールです。ただし、上記のグーグルとマイクロソフトのツールがあれば間に合うかもしれません。他にもTableau(タブロー)、DOMO(ドーモ)などのツールがありますが、それぞれに強みがあります。
たとえば、視覚的に情報がわかりやすい、アラート通知ができる、といった機能です。しかし、グーグルとマイクロソフトのビッグデータ解析ツールでだいたいの機能は網羅されているので、まずはそちらから利用してみるのがおすすめです。
ビッグデータ解析に資格はいるの?
ビッグデータを解析するエンジニアは、データサイエンティストやデータアナリストです。これらの職種にはデータベースを扱うスキル、統計スキル、マーケティングスキルなどが求められますが、資格は不要です。
資格がなければできない仕事ではありませんが、あえて取得するのであれば「統計検定」、「オラクルマスター」などの資格がおすすめです。統計学とデータベース資格があると実務にも役立ち、またビッグデータ解析エンジニアとしての評価も上がります。
ビッグデータ解析とAIの関係は?
ビッグデータとAIはセットで語られることが多いですが、それはビッグデータとして集積したデータをAIで分析、処理することが多いからです。AIはそもそもデータベースに情報を蓄積し、その結果からシステムで自動的に処理の精度を高める、ロジックそのものを変えていく、といったものです。
AIの基盤となるデータベースが必ずしもビッグデータである必要はありませんが、ビッグデータとの相性は良いと言えるでしょう。AIは基盤となるデータベースが強固である方がパフォーマンスが高まるので、ビッグデータのように情報量が多い方が機能性がアップします。
もちろんビッグデータを最大限活用するためにはAIのスペックが高い必要があるので、今後より一層「ビッグデータ×AI」の研究は進められていきます。
人気記事