【データサイエンス入門】ビッグデータや基本的なデータの見方について

私たちの身の回りに溢れており、企業にとって活用しない手はない大量のデータ

しかし、まだまだどのようにデータを集めて分析して活用したら良いのか、いまいち理解できていない人も多いのではないでしょうか?

データを分析して活用することを「データサイエンス」と言いますが、今回はその入門編として、ビッグデータや代表値標準偏差など、基本的なデータの見方について解説します。

データサイエンスとは

データサイエンスとは、アルゴリズムや統計など様々な学問領域にわたる手法を駆使してデータを分析し、有益な知見を引き出すことです。

データサイエンスに取り組む人は、データサイエンティストと呼ばれ「データサイエンス力、データエンジニアリング力をベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル」と定義されています。

近年のインターネットの普及やIT技術の進歩、AIの発展などにより、ビッグデータと呼ばれる膨大なデータも効率よく取り扱えるようになりました。それに伴い、企業にとってデータ活用は欠かせないものとなっており、データサイエンスへの注目度は高まっています。

ビッグデータとは:3つの「V」

データサイエンスが注目されるようになった大きな要因のひとつにビッグデータがあります。ビッグデータと言うと、漠然と「大量のデータ」のことを思い浮かべてしまいがちですが、それだけを意味しているものではありません。

ビッグデータとは、データの「量(Volume)」「多様性(Variety)」「速度(Velocity)」の3つのVから成り立つ巨大なデータ群のことを指します。

まずは、「ビッグデータ」と「データ」の違いを理解するポイントとなる、「3つのV」について説明します。

※「5つのV」「7つのV」から成り立つという考え方もありますが、今回は基本の「3つのV」に絞って紹介します。

Volume(量)

まずはデータの量についてです。ビッグデータには、既存のデータベースシステムでは処理できないほどの膨大な量のデータが含まれます

また、1台のパソコンに入っているデータだけではなく、複数のパソコンに入っているデータを処理・分析することができます。

Variety(多様性)

次に、データの多様性についてです。従来のデータは表などの構造化データしか扱うことができませんでした。

しかし、ビッグデータには構造化データだけではなく、画像や音声、テキスト、動画、さらには検索履歴など、多様なデータ形式の非構造化データが含まれます

Velocity(速度)

最後にデータの速度についてです。これは出入力や処理の速度を指しています。膨大なデータを高速で処理するため、リアルタイムで分析することも可能です。

データ分析と代表値

ここからは、データを見るときに押さえておくべき基本的な考え方をお伝えします。

たくさんのデータを見るときに、そのデータの性質を表した数値を「代表値」と言います。代表値には複数の種類があり、中でも、平均値・中央値・最頻値の3つが主たるものです。それぞれの値には特徴があるため、使い分けを理解しておくことが重要です。

平均値

グラフ1(引用:厚生労働省の平成22年調査)

平均値は、すべての数値を足して、数値の個数で割った値です。これは平均点や平均年収など、みなさん聞き馴染みがあると思います。

しかし、これはデータの中のはずれ値(異常な値)に影響されやすいため注意が必要です。

例えば、上記の図の平均所得の値ですが、1億円や5億円などのはずれ値が入ってくると、それに伴って平均値も上がることになります。

中央値

グラフ2(引用:厚生労働省の平成22年調査)

中央値は、データを大きさの順で並べてちょうど真ん中にくる値を指します。

これは平均値とは違って、はずれ値に強いという特徴があります。しかし、データとしては並べ替えをいう処理をしなければならず、扱いにくい部分もあります。

最頻値

グラフ3(引用:厚生労働省の平成22年調査)

最頻値は、その名の通り最も頻繁に出現する値です。

最頻値も中央値と同様に、はずれ値に強いという特徴があります。一方で、頻度に差のないデータの場合、わずかな頻度差に影響されてしまうという欠点もあります。

正規分布と非正規分布

3種類の代表値について紹介しましたが、データの分布によってどの値を参考にすべきかは変わってきます。

グラフ4の上のグラフように正規分布になっている場合は、平均値、中央値、最頻値は同じ値になります。しかし、ピークの位置に偏りがある非正規分布(グラフ4 下)やピークが2つあるようなグラフになる場合は、平均値、中央値、最頻値は異なる値になるため、どの値を代表値として参考にするかは注意して選択する必要があります。

グラフ4(引用:改訂増補版 統計検定を理解せずに使っている人のために I)

先ほど紹介した年収のグラフは左にピークが偏っている非正規分布になります。

グラフ5(引用:厚生労働省の平成22年調査)

よく平均年収が話題になることがあります。このグラフを読み解くと、平均値は500〜600万円ですが、最頻値は200〜300万円であることがわかります。すなわち多くの人が平均年収よりも収入は下回っていることになり、平均値で判断することは本質を見れていないことになります。この場合、グラフの特徴を一番表しているのは最頻値になります。

何か商品やサービスについて分析するときに、平均値ではなく最頻値を代表値として捉えた方が良い場合もあります。それぞれの値の特性を理解し、どの値を代表値とするか見極めて意思決定を行う必要がありますね

データのばらつきを見る:標準偏差

続いて、データのばらつきを示す値「標準偏差」についてです。

標準偏差を理解するためには、まずは「偏差」が何を示しているのか知る必要があります。偏差とは、平均値からどのくらい離れているのかを示す値です。その標準値を「標準偏差」と言います。

すなわち標準偏差とは、「データの標準的な偏差(平均値の差)」を表したものです。標準偏差が大きい時は、平均値から離れているデータが多いということになるので、データのばらつきが大きいと読み取ることができます。反対に、標準偏差が小さい時は、平均値から近いデータ多いということなので、データのばらつきが小さいということを示しています。

グラフ6(引用:GMO RESEARCH 標準偏差とは?ビジネスでの活用方法と求め方を解説)

上のグラフはどちらも平均=100のグラフですが、中身のデータは大きく異なっています。このような可能性があるため、データを読み解くときには平均値だけではなく、データのばらつきを示す標準偏差を確認することも重要になってきます。

データの可視化

データ分析を行うにあたり、可視化することはデータを直感的に理解するために重要なプロセスです。データはただの数値なので、羅列されていても意味を持ちません。可視化してデータの特徴を表現することで、価値のあるものに変わります。

可視化するメリットとしては以下の内容が挙げられます。

  • 短時間で現状を把握することができる
  • 情報共有がスムーズにできる
  • 大量のデータから法則性を見つける助けになり、企業の意思決定の参考になる

グラフには棒グラフや折れ線グラフ、ヒストグラム、積み上げグラフ、散布図など様々な種類があります。データの種類や特性によって、どんなグラフで可視化するかを考える必要があります。

グラフの作成は面倒だと感じる方もいるかもしれませんが、「BIツール」というデータの可視化や分析を手助けしてくれるツールも豊富にあります

▼BIツールについては下記の記事を参考にしてください。

データを制する者はビジネスを制する!?BIツールの機能やメリット・デメリット

まとめ

今回はデータサイエンスの入門として、ビッグデータや基本的なデータの見方について紹介しました。

企業にとってデータ活用は欠かせないものになっていますが、慣れていないとその管理や分析、活用の方法についてそもそもイメージが湧かないこともあるかもしれません。顧客データや取引データ、購買データ、SNSデータなど、私たちの周りはあらゆる情報で溢れています

全てのデータを闇雲に収集しても活用しきれないので、目的を明確にして必要なデータを収集、管理、分析することが重要ですね。

弊社では、AIやデータサイエンスの研修を行なっています。何かわからないことがあればお気軽にご連絡くださいね。