Search

キーワードを入力してください

マーケティング用語集クラスター分析とは

「クラスター分析」は、大きな集団の中から、似たもの同士を集めてグループに分ける統計的な分析手法です。とはいえ、性別や年齢層別、在住地域別など、始めからはっきり分類基準がわかっている集団に分けるのはクラスター分析とは呼べません。クラスター分析の場合は性別などの外的基準がはっきりしていないデータを分類する場合に用いる場合が多いです。

英語の「クラスター」とは、ブドウなどの房(ふさ)や、群れ、集団という意味です。近年、生活者動向を分析した調査発表や、マーケティング現場でのターゲット分析、ペルソナ分析などで使われることが多くなっています。

クラスター分析でできること

クラスター分析では、生活者の購買データやアンケート調査などから、生活者や商品をクラスター分けします。そのため、会員登録時に記入もしくは入力するようなデモグラフィック(属性)情報による分類とはまた違った分類が可能です。

たとえば、マーケティングの現場では次のような分析に利用されています。

クラスター分析の考え方

クラスター分析は、それぞれのデータ同士が「似ているか」、または「似ていないか」を基準に分類しています。統計的には、相関係数などによって類似度を計算したり、ユークリッド距離(2点間の直線距離)などによって非類似度を計算したりといった作業を重ねて分析が行われます。

計算は数字で表現する論理的なものですが、「似ている」「似ていない」というのは感覚的な部分があります。そのため、これまで多くの研究者によって異なった考え方や分析のアルゴリズムが提唱されてきました。それらは現在でも一本化されておらず、多くのバリエーションが存在し、「さまざまなクラスター分析の結果をクラスター分析するべき」とまで言われる状況です。

クラスター分析の種類

クラスター分析は表のように多くの種類がありますが、大きくは「階層的手法」と「非階層的手法」の2つに分類できます。

分析手法代表的な距離測定方法解説
階層的手法
(似たデータ同士をまとめていくことで、クラスターを形成)
ウォード法 クラスター内のデータの平方和(平均からの偏差値)を最少に
最短距離法(最近隣法) 距離が近いものから順に併合
最長距離法(最遠隣法) 距離が遠いものから順に併合
重心法 クラスターの重心からの距離を基準に併合
群平均法 各クラスター同士で、全データの距離の平均を基準に併合
メディアン法、可変法など
非階層的手法
(似たデータ同士が同じクラスターになるよう全体を分割)
k-means法(k平均法) クラスターの平均(means)を用い、決められたクラスター数「k」個に分類
超体積法など

1)階層的手法

「階層的手法」とは、すべてのデータ間相互の類似度または非類似度を計算し、ある「距離測定方法」を使って似たもの同士を同じクラスターに併合していく手法です。距離測定方法にはさまざまな方法があります。最もよく使われているのは「ウォード法」で、全体にデータがバランス良く分類されやすいとされています。

階層的手法は、散らばったデータがクラスターに併合されていく経過が樹形図(デンドログラム)と呼ばれるトーナメント表のような図で視覚化できることも大きな特徴です。図の中で近い位置にあるサンプル同士は似ているということを表します。

<階層的手法で生成される「樹形図」例>

階層的手法で生成される「樹形図」例

この手法のメリットは、クラスターの数を事前に決めなくても、樹形図を見れば判断しやすいことが挙げられます。樹形図は視覚的にもわかりやすく、説明もしやすい図です。
一方、デメリットはサンプルや変数などデータ量大きい場合、計算量が膨大になり計算不能となったり、結果が不安定になったりする場合があることです。このため、ビッグデータ分析では「非階層的手法」が主に使われます。

2)非階層的手法

<非階層的手法のイメージ図>

非階層的手法のイメージ図

「非階層的手法」とは、樹形図のような階層的な構造を持たず、事前にいくつのクラスターに分けるかを決め、サンプルを指定の数の集合に分割していく手法です。わかりやすく説明すれば、似たサンプルを統計的に近く集め、似ていないサンプルを遠ざけることを繰り返してグループを作っていく手法です。

距離測定法のスタンダードになっているk-means法の場合、最初に指定したクラスターの数だけ重心がランダムに指定され、各重心からの距離をサンプルごとに計算していくというアルゴリズムになっています。

この手法のメリットは、全サンプル間の距離を計算する階層的手法よりも計算量が少なくて済み、ビッグデータを扱いやすいことです。

一方でデメリットとして、何個のクラスターに分けるかを分析前に決める必要があります。現在のところ、クラスター数の決め方に定まった公式はありませんので、実用上は何種類か試す場合が多くなっています。 さらに、最初に指定する重心の位置はランダムに決められるため、同じデータで分析を行っても、分析ごとに結果が多少変わることがありますので注意ください。このことは「初期値依存問題」と呼ばれます。

クラスター分析の進め方

データ分析をマーケティングに活用するためには、分析の計算自体よりも、その前後の準備や解釈が重要です。そこで、とある架空の例を元に、クラスター分析を「マーケティングで使うための進め方」をご紹介します。

●調査背景

食品を中心としたネットショップのA社では、メルマガやサンキューメールによるメールマーケティングを中心に販促活動を進めてきました。これまで会員へのメールマガジンは1種類でしたが、配信停止希望が多くなってきました。そこで、それぞれの顧客に必要としている情報を届けていないことが理由だと判断し、複数の種類のメールマガジンを用意することが決まりました。

最初は、会員登録の属性から、性別や年齢層で分けて、内容を変えたメルマガを送ったのですが、配信停止は減りません。そこで、クラスター分析によって顧客を分類し、それぞれに合ったメールマガジンを送ることにしました。

●調査手順

データ分析はクラスター分析に限らず、どんなデータを分析にかけるかが重要です。今回の場合、性別等の属性データでは効果が限定的であると考えられたので、購買履歴のデータを分析することにしました。

実際の分析作業はコンピュータを利用します。クラスター分析は複雑な計算を連続で何回も行う必要があるため、Excel(エクセル)単体で分析することはできません。Excelに付加する「エクセル統計」などのアドインソフトや、フリーの統計ソフト「R」、有料でパワフルな「SPSS」「JMP」といった統計ソフトで行います。

分析手法は、2,000人以上の会員の購買履歴でデータ量が大きいため、非階層的手法でk-means法を選びました。クラスター数はメールマガジン作成の手間を考えて2個から増やして試し、結果を見たところ、会員のばらけ具合が6個のときに一番意味がありそうだとわかりました。

●各クラスターを解釈

分析結果では、それぞれの会員が6つのうちのどのクラスターに属するかが判明しただけです。統計ソフトはその中身までは教えてくれません。

そこで、各クラスターの、性別や年齢、購買頻度、購買商品などの傾向を見比べました。そうして、6つのクラスターの特性を解釈しました。これはプロファイリングとも呼ばれる作業です。

<6個のクラスターのプロファイリング>

【クラスター1】 【クラスター2】 【クラスター3】
お試し買い層 ヘルシー層 重いモノ購入層
新商品や話題の商品を中心に少量を購入する層。送料無料キャンペーンへの反応が高い。 ローカロリー、低糖質、低GI、オーガニックといった健康的な商品を中心に購入する層。 米やペットボトルなど重い物、大きい物の購入が多い層。年齢層は高め。子育て層も多い。
【クラスター4】 【クラスター5】 【クラスター6】
スイーツ層 ガッツリ層 オフィス購入層
おやつの甘い物やドリンクを中心に購入する層。若年層の女性が多い。購入金額は低め。 カロリー高めのスナックや、炭酸飲料などを多く購入する層。サイズの大きい商品も多い。 会社への配送が多いことから判断。1回の購買品数も多い。種類の幅も広いという特徴がある。

こうして会員をクラスター分析できました。スタッフで考えていても出てこなかった分類です。

●分析結果を活用

この結果を元に、最初はメルマガを6種類作成することになりました。内容はそれぞれのクラスターに合う新商品の紹介や、レコメンド商品の説明、キャンペーン提案などです。ターゲットが絞られている分、何を紹介すればいいのか、迷わずに書けます。

メルマガだけでなく、商品仕入れの参考にもなりました。たとえばクラスター1は購入金額や頻度は高くありませんが、この層が過去に購入した商品が後の売れ筋になっていることが多いことがわかりました。今後は定期的にクラスター1の購入商品をチェックし、仕入れ数を調整したり、キャンペーンを開始したりすることも決まりました。

クラスター分析の応用例

前項では、人をクラスタリングする事例を取り上げましたが、人の分類以外にも、メニューや単語といった「変数」をクラスタリングすることも可能です。以下にその例を紹介します。

●料理メニューをクラスター分析し、最適なセット商品設定

たとえば、メニューの種類が多いケーキ店、寿司店、バーなどで使える例です。お客様に各メニューの好き嫌いを5段階評価してもらうアンケートを採り、その結果をクラスター分析します。
すると、特性の似たメニューのクラスターに分類できます。そこで、同クラスターの商品群を似たものセットで販売する、逆に各クラスターから商品を選んで幅の広いセットにする、といったメニュー設定が可能になります。

●アンケートのフリーアンサーをクラスター分析、新商品開発に活用

アンケートのフリーアンサーは重要なアイデアや意見が隠れていることがありますが、数値化できないため、活用しにくいデータです。そこで、テキストマイニング・ツールで頻出語などを抜き出し、その単語をクラスター分析します。
すると、関連性の高い単語の集合に分けられます。たとえば雑貨であれば「一人用」「ソファ」「持ち運び」が同じクラスターであったり、飲食であれば「低糖質」「ごはん」「満腹感」が同じクラスターであったりといった発見ができるかもしれません。そして、それぞれのクラスターを解釈し、新商品開発や既存商品のリニューアルに活用することが可能です。

多変量解析におけるクラスター分析の役割

クラスター分析は、2つ以上の項目(変数)の間にある関係を統計的に分析する「多変量解析」という統計手法のうちのひとつです。多変量解析の目的は大きく分けて、将来の売上や来店客数など何らかの結果を「予測」することと、学校の試験結果を文系と理系に集約するなど「要約」することの二つに分けられます。

クラスター分析は、「要約」的手法で、そのままでは数字やログの集積に過ぎないビッグデータを、特性の似た人や商品を解析して複数のクラスターに分けにグループ分けします。クラスターごとの特性を分析し、それぞれのクラスターに合った情報を提示することで、効率良くOne to Oneマーケティングに近い効果が期待できます。ぜひ活用してみてください。

関連サービス