【Produce Next Report Vol.52:データアナリティクス】
~第2回 データを読み解く際のポイント~
第1回である前回は、データ分析の目的について解説した。データ分析は項目や分析手法を無数に組み合わせることが可能であるため、明確に目的を設定しないで実施する場合、「分析のための分析」に陥りやすい。目的や仮説を明確にした上で、検証の手段としてデータ分析を行うことが肝要である。
さて第2回では、「データを読み解く際のポイント」について解説したい。仮説を設定し、データを収集したり分析したりすると、仮説を立証できそうな結果が得られた。このとき注意すべき点は何だろうか。
総論的に言うならば、「その分析結果が真に仮説やメッセージを立証しているかを考察する」ことである。一見すると仮説を立証しているように見えて、実はそうではないケースはよく発生する。今回は、そういったデータを読み解く際に陥りがちなパターンをいくつか紹介する
①疑似相関
疑似相関とは、「本来因果関係のない2つの事象が、隠れた要因によって因果関係があるかのように推測されること」をいう。
次のような仮説を考えてみよう。「年収の高い人ほど、朝型の生活である」。この仮説についてデータを収集・分析した結果、年収と起床時間の間に相関関係が見られたとする。
近年”朝活”というワードが流行っているのもあり、年収の高い優秀なビジネスマンほど朝の時間を効率的に使っているのでは、と聞くともっともらしくも思える。だがこの仮説においては、「年齢」という隠れたファクターが双方の変数に影響しているとみるのが正であろう。即ち、年収の高い人の平均年齢は高く、年齢が高い人は朝型の生活の割合が高い、というのが実態である。
このように、隠れた要因によって因果関係があるように見えるケースはよく発生する。
②サンプルセレクションバイアス
サンプルセレクションバイアスとは、「サンプルとなる集団の属性によって、統計結果に偏りが生ずること」をいう。
これは特に外部のデータを活用する際には注意が必要である。例えば、ある雑誌がアンケートを実施する場合、回答者はその雑誌の購読者が多数になるだろう。その場合、自然と性別や年齢、趣味嗜好が偏るはずである。
また、商品の顧客満足度調査の際に、その商品のリピーターをサンプルとして選出することによって、見かけの満足度を高めようとする場合などもある。満足しているからリピートしているのであって、当然満足度は高くなる。
このような隠れた属性は、上記の疑似相関を生み出しやすい。データ収集や分析の際には、対象となるセグメントに隠れた属性などがないか注意いただきたい。
以上、データを読み解く際に陥りがちなミスのパターンを2点紹介した。データ分析により仮説が立証されるようなアウトプットが出たとしても、鵜呑みにせず、今一度結果を疑い考察する姿勢を大事にして頂きたい
次回は、「意思決定に繋げることへの難しさ」について解説してゆく。