Search

キーワードを入力してください

マーケティング用語集判別分析とは

「判別分析」とは、統計学上のデータ解析手法のひとつです。いくつかのグループ(群、カテゴリ)に分かれているデータを元に、それらが「どういう基準で分けられているのか」という関係を解析することで、分類されていないサンプルがどちらのグループに属するかを予測する手法です。

たとえば、ある商品の購入者・非購入者のデータを元に、どういう人がその商品を購入するのかを統計的に解析し、見込み客が購入するかどうかを予測する、といった場合に使われます。

判別分析は、判断材料や基準となるデータ、統計学的には「教師データ」と呼ばれるデータを基にした分析です。もともとは海外でR. A. Fisher が多変量分散分析のアイデアをベースに応用した分析手法ですが、日本では第二次世界大戦後の混乱で刑務所があふれそうになった際、釈放する人を決めるために再犯者と更生者を判別するために判別分析を開発したとされています。

判別分析でできること

判別分析は、他にも様々な分野、用途で使われています。

<医療診断>

<受験合格予測>

<選挙予測>

<マーケティング関連>

判別分析の種類と方法

判別分析の考え方を単純化して説明すると、「AとBの間に線を引いて仕切り、そして未分類の変数の持つ特性から、AかBかを予測する」ことです。

判別のためにAB間に線を引く方法は、大きく分けて2種類あります。

1.「線形判別関数」で仕切る

discriminant01.PNG

たとえば縦軸を収入、横軸を年齢として、ある商品を購入した人(A)と購入しなかった人(B)を散布図にして、ABが分かれる境界線を直線で引く方法です。収入と年齢のような2軸(2次元)ではなく、3軸以上で行う場合は、線ではなく平面になります。

この方法では、AB間を仕切る直線を線形判別関数として数式化し、未分類のデータはその数式に当てはめることで、たとえば関数式の計算結果がプラスならAグループ、マイナスならBグループに属すると判別します。

2.「マハラノビス距離」で仕切る

discriminant02.PNG

提唱者であるインドの数学者の名前を由来とする「マハラノビス距離」(マハラノビス汎距離)を使った方法です。マハラノビス距離とは、データ分布の広がりを加味した距離のことで、2点間の直線距離を標準偏差で割った値の2乗で計算できます。標準偏差で割ることで分布の広がりを勘案した距離が求まるわけです。分布が大きくて直線距離(ユークリッド距離)では上手くAB間を仕切れない場合や、次元が多い場合などに使われます。

この方式では、未分類のデータは各グループとのマハラノビス距離を計算することで、距離が最も近いグループに属していると判別されます。

判別分析の事例

マーケティングでデータ分析を活用する際に重要なのは、分析の計算自体よりも、分析の目的や活用方法を明確にすること、そしてデータの準備や分析結果の活用です。分析結果が出ても、それを実際のマーケティング活動に活かせなければ意味がありません。そこで、とある架空の例を元に、判別分析を「マーケティングで使う」ための進め方をご紹介します。

●分析背景

企業向けにウェブサイトの構築やインターネット広告の運用を行っているA社は、アウトバウンド(外販)の営業部門があり、ウェブによる営業だけでなく、営業スタッフによる訪問営業にも力を入れています。しかし、最近は営業に訪れても反応が鈍く、営業効率の悪さが問題になっていました。
そこで、ウェブからの問い合わせやホワイトペーパーのダウンロード、メールマガジンの登録時などに入力される見込み客(リード顧客)の情報を判別分析し、顧客になるかどうかを判別してから営業部門に引き継がれることになりました。

●分析目的

1)見込み客が将来的に顧客になるかどうかを判別
2)「顧客になる/ならない」を分けている要因が何なのかを解析

●データ準備

データ解析ではどんなデータを使って解析するのかが意外に重要です。というのも、統計計算はコンピュータで自動的に行われるため、どんなデータを入れても一見それらしき結果が出てしまうからです。データの信憑性を測定する方法もありますが、採用データを選び、精度の高いデータを集めるというアナログな部分では能力の差が大きく出ます。

今回は、既に顧客となった既存顧客の属性から、「売上高」「従業員数」「広告予算」、さらに「自社から相手企業オフィスまでの移動にかかる所要時間」「接触当時のウェブサイトのページ数」を選びました。
「所要時間」に関しては、営業部門が関連を見たいということで加えました。「ウェブサイトのページ数」に関しては、制作部門から「関連が強いのではないか」という意見が出たため加えました。
「所要時間」「サイトのページ数」の2つは顧客の入力データではありませんが、A社では営業時や制作時に記録として顧客データベースに残しているため、今回利用できました。

●判別分析ツール

実際の分析作業はコンピュータで行います。判別分析は計算が複雑なため、Excel(エクセル)単体で分析することはできません。Excelに付加する「エクセル統計」などのアドインソフトや、フリーの統計ソフト「R」、有料の統計ソフト「SPSS」「JMP」などで行います。

●基本解析(相関比)

まず、「顧客になる/ならない」という結果(目的変数)に対して、選んだ5つの属性(説明変数)のうち、どれと関係が強いと予想されるか、相関比を出してみることになりました。相関比とは、「量的データ」と「質的データ(カテゴリーデータ)」の関係を明らかにする統計手法ですが、各説明変数グループの平均とグループ内のデータのばらつきを見ることで、目的変数と説明変数の関係の深さを測る係数のことです。統計ツールで計算できます。
今回の解析では、「サイトのページ数」「売上高」「広告予算」の相関比が強く、「従業員数」は弱い相関、「所要時間」に関してはかなり弱い相関という結果が出ました。

●判別分析計算

そして判別分析の計算です。統計ツールを用いて、相関が強いと出た3つの属性を使い、線形判別係数による判別式を作成しました。

線形判別係数による判別式

計算例:見込み客の「サイトのページ数=30」「売上高=1.8億円」「広告予算=200万円」の場合

計算例

yの数値が1以上であれば、「顧客になる」と判定されます。

●分析結果活用

今後、新しい見込み客を獲得した際には、この判別式に3つの属性を入力し、yが1以上であれば顧客になる可能性が高いと判断し、営業部門が積極的にアプローチしていくことになりました。
サイトのページ数は現在のところ顧客の入力情報欄にないため、自動的にスクレイピング(データ抽出)で情報を入手できるようプログラムを組みました。

そして、顧客になる確率が低いと判別された顧客は、マーケティング部門がマーケティングオートメーションを使って、オンラインで継続的にフォローを行うこととなりました。
さらに、「顧客になる/ならない」と相関の高い属性が判明したので、問い合わせ等を待つだけではなく、営業部門が3つの属性が高い企業を探し、こちらから攻めの営業を展開することも決まりました。
今後、この判別式による判別の結果も加味することで、さらに営業効率が高まりそうです。

多変量解析における判別分析の役割

判別分析は、3つ以上の項目(変数)の間にある関係を統計的に分析する「多変量解析」という統計手法のうちのひとつです。多変量解析の目的は大きく分けて、将来の売上や来店客数など何らかの結果を「予測」することと、学校の試験結果を文系と理系に集約するなど「要約」することの二つに分けられます。

判別分析は、そのうちの「要約」的な手法ですが、分析によって得られた関係式もしくはマハラノビス距離を使って、未分類の変数がどのグループに属するかを「予測」するという珍しい手法です。
他の「要約」型の多変量解析手法は各グループの特性の情報を分析しますが、判別分析はグループの特性は最初から判明していて、未知の個人や個体を分類する目的で使われることが多いという点も特徴的です。

関連サービス