コラム

ビールと紙おむつって何の関係があるのだい?~「アソシエーション分析」で購入傾向を予測する~

筆者:関口 大五郎

ビッグデータ

2017.03.01


「ビールとおむつ」ってどんな関係があるかご存知ですか?スーパーマーケット、コンビニエンスストア、Webのショッピングサイトでよく使われる 『この商品を買っている人はこの商品も買っています』で使われる「アソシエーション分析」というデータ分析の手法があります。これを知っていると、マーケティングにも非常に役立つ知識です。今回はこの仕組みについて簡単に解説したいと思います。


表題の意味


「ビールとおむつは良く一緒に購入される」
…みなさんは、こんな都市伝説を聞いたことがありませんか?
あるアメリカのショッピングセンターで、ビールを購入した何割かの人が紙おむつも購入している という事実を 購入履歴のデータから判明 したそうです。

でも実際のところはどうなのでしょう?小さなお子様のいる家庭では、お父さんが、車でショッピングセンターに買い物に行くと 紙おむつを買うついでに缶ビールのケースも買う かもしれないから、理にかなっているかもしれません。でも、単なる偶然かもしれません。

膨大な 購買履歴 などの ビッグデータを分析 すれば、これが 理にかなっているか、偶然なのかも分かります し、お客さんが どんな商品を購入するかも予測 できます。

ビールとおむつの関係って?

あるインターネットショッピングサイトやコンビニエンスストアの事例


皆さんは、Webのショッピングサイト(ECサイト)で買い物をしたことはありますか?便利な時代になりましたよね、インターネットにアクセスすれば買い物ができるのですから。

このようにWebサイトで購入するとき、よく「この商品を買った人はこんな商品も買っています」「あなたはこれも好きでしょう?」といった感じで、関連した他の商品を薦められる ことがありますよね。「レコメンド」などと呼ばれるものです。
また、コンビニエンスストアでも「おにぎりとお茶を買った人は割引」というサービスを目にすることもあるのではないでしょうか?

これらはただ適当に提案したり、サービスを考えたりしているわけではなく、やはり データを分析した結果から打ち手を考えている のです。このような予測をするためのデータ分析手法を「アソシエーション分析」といいます。
 

実際に考えてみましょう


さて、それでは実際に考えてみましょう。どんなデータが必要かというと、購買履歴のデータ です。図のような購買履歴のデータがあるとします。そのデータから「支持度」「信頼度」を計算します。このアルゴリズムは apriori と呼ばれています。

今回は、スーパーでの購買履歴を参考に見てみましょう。

スーパーでの購買履歴

「支持度」を計算しましょう


「支持度」とは、全トランザクションに占める特定のアイテムを含む割合 のことです。アイテムを「i」として supp(i) と表してみます。支持度を求めることにより、どの アイテム(商品)または、それらの 組み合わせが購入されているか を確認できます。

今回のサンプルデータの各アイテムの支持度は以下の通りです。

supp(とうふ)    = 5/7 ≒ 71%
supp(納豆)     = 5/7 ≒ 71%

supp(たまご)    = 3/7 ≒ 42%
supp(みかん)    = 2/7 ≒ 28%
supp(だいこん)   = 3/7 ≒ 42%
supp(さしみ)    = 4/7 ≒ 57%
supp(りんご)    = 3/7 ≒ 42%
supp(バナナ)    = 1/7 ≒ 14%
supp(チョコレート) = 1/7 ≒ 14%

次に、アイテムを2つにした支持度 を計算します。このとき「最低支持度」というものを考えます。
最低支持度とは、対象とする最小の支持度 のことです。ここでは最低支持度を 50% とします。最低支持度を満たさない値は「枝刈り」といい、アイテムには含めません。

ここでは枝刈りにより、とうふ、納豆、さしみ の3アイテムが残りました。これらのアイテムより 2つの組み合わせによる支持度を計算 します。

supp(とうふ、納豆)  = 4/7 ≒ 57%
supp(とうふ、さしみ) = 2/7 ≒ 28%
supp(納豆、さしみ)  = 2/7 ≒ 28%

となり、更に枝刈りをすると、とうふと納豆 が残っています。さらに、それらを同時に購入している人が、全体の57% であることが分かりました。

そこで、次に とうふと納豆のルールに注目 してみましょう。

とうふと納豆に関係がありそう?

「信頼度」を計算しましょう


支持度 により、全体のうちどのアイテム(商品)が選ばれるか が分かりました。
次は「信頼度」を計算します。信頼度とは、特定のアイテムを選ぶ「ルール」です。

例えば、Aを選んだ人がBを選ぶ割合 を表す場合などに使い、これを conf(A→B) とします。今回は「とうふを買った人が納豆を買う割合」「納豆を買った人がとうふを買う割合」を求めてみます。

conf(とうふ→納豆) = supp(とうふ、納豆) / supp(とうふ) = 80%
conf(納豆→とうふ) = supp(とうふ、納豆) / supp(納豆)  = 80%

となりました。
前者は「とうふを買っている80%の人は納豆も買っている」ことを表しています。それに対し、後者は「納豆を買っている80%の人はとうふも買っている」ことを表しています。信頼度を計算することによって、お客さんの買い物の傾向をつかむことができました。

結果を検証しましょう


さて、今の信頼度の結果は、理にかなっている のでしょうか?それとも 偶然 といえるものでしょうか?
ビジネス的に解釈しようとしても分からない場合は 計算で検証 することもできます。この値を「リフト値」といいます。

lift(A→B) で表すと、次のように表すことができます。

lift(A→B) = conf(A→B) / supp(B)

リフト値が1に近い場合 は、単なる偶然な結果 または 単にBがたくさん売れている結果 と解釈でき、リフト値が1.5より大きい場合 は、偶然ではなく結果が理にかなっている と解釈できます。

今回の例で計算してみると、
lift(とうふ→納豆) = 1.12
同様にlift(納豆→とうふ) も、1.12 となります。

となります。つまりこの結果は納豆もとうふもたまたまよく買われていると判断できます。

もし、これが「理にかなった結果」であるなら、スーパーなどの売り場で近くに置くなどの対策をたてる ことにより、売り上げの向上が期待できる、考えられます。
 

まとめ


今回は小売業での事例で、分析のアルゴリズムを解説しました。実際には「支持度」「信頼度」「リフト値」などの計算は、分析ソフトウェア がしてくれます。私たちはデータを分析ソフトウェアに渡してその結果を検証すればよいのです。

しかし、その後の ビジネス的な対策 は、我々人間が考えなくてはなりません。このコラムで、アソシエーション分析 の考え方を知っていただけたら、ぜひ、分析ソフトウェアを駆使して、データをビジネスに活かしてみてはいかがでしょうか?
 

関連URL

筆者紹介

関口 大五郎

プロフィール

関口 大五郎(Daigorou Sekiguchi)

ITトレーナー歴19年、ビッグデータ、データサイエンス、業務アプリケーション系
のトレーニングを最近は担当することが多いですがプログラミング、ネットワーク、システム管理など基本的に何でもできます。

趣味 ライブ鑑賞 ポエム フィットネス 旅行 B級グルメ など


Page Topへ