超「スモールデータ」

早速ですが、先ず114の食品のネットワーク可視化結果をご覧下さい。この結果は、114の食品に対して5段階で好きか嫌いかを被験者に尋ねるWebアンケートにより収集したデータで作ったものです。
この可視化は、まず評価者を行、食品を列とする行列を作り、その列ベクトル同士がどれだけ近いかをコサイン類似度で計算して、お互いに類似度が高い食品同士をエッジで接続します。そしてGephiと呼ぶネットワーク可視化ツールでエッジで接続されているノード同士がお互いに近くなるように2次元平面上に配置したものです。これはマイニングの教科書にある古典的な方法で特に何の工夫もありません。それでも、似たような食品がお互いに近くにまとまっていることがわかります。お刺身類は右、野菜は下、洋食は左、麺類と天ぷらが上、という具合です。

同様に、下の階層的クラスタリングの結果をご覧下さい。こちらはコサイン類似度ではなくユークリッド距離を使って階層的クラスタリングを適用したものです。これも似たような食品がうまくクラスタに分かれていることがわかります。特に面白いのは、いくらとタピオカは全く違う食品ですが、同じクラスタに属しています。これはおそらくプチプチという独特の食感が人の嗜好に強く影響したためではないかと想像できます。このいくらとタピオカの例は、データマイニングの教科書に出てくる「ビールとおむつが一緒に買われる」例と同じぐらい興味深い発見ではないでしょうか。

さてこのような、良い結果が得られるには、どれくらいのデータを集めたか気になると思います。実は私の「応用統計論及び演習」という講義の受講生、僅か52名に対してWebアンケートを実施して得られたデータなのです。私は前職の研究所では数千万から数億件のブログ記事やTweetをつかったマイニングの研究に携わっていましたので、このデータと比較するとデータサイズという面では実に6桁位違うデータです。

このようなスモールデータでありながら、マイニングがうまくいったことには秘密があります。それは本データは僅か52名のアンケート調査であってもデモグラフィック属性の均一性がという点で際立ったものであることです。52名の年齢がほぼ同一、全員女子学生、居住地は関東、さらに同じ大学でこの選択の授業を履修したという点まで含めると奇跡的な均一性です。さらに食品の嗜好を調査する場合には、時間帯も影響するかもしれませんが、アンケートを実施した時間帯も全員同じ昼食後の3限目です。

この結果には、正直、私も驚きました。デモグラフィック属性の均一性、元データの良さがいかに分析結果に影響するかのよい例だと思います。もし、高齢者や男子が被験者に含まれた場合には、純粋な食品の嗜好以外の要因がノイズとなり、これほどの精度は出ないでしょう。

一昨年前位からビッグデータと呼ぶ言葉がよく聞かれるようになりました。確かに、近年のクラウド・コンピューティングや分散処理技術の進歩はめざましく、今まで処理できない大量のデータが容易に処理できるようになったことは素晴らしいことです。一方で、統計数理研究所の丸山宏先生の名言で「ビッグデータ周辺の問題の多くはサンプリングとExcelで解ける」というのがあるそうですが、今回の結果は、まさにその一例になっているのではないでしょうか。普通、「サンプリング」というのは、ランダムサンプリングを意味しており、今回のように特定のデモグラフィック属性のユーザのみというのは逆の方向性のですが、一応、「サンプリング」の一種とは言えると思います。いずれにせよ、本当にビックデータの分析が必要なケースはどれほどあるのだろうかと改めて考えさせられる経験でした。

ところで、この分析結果は意外と役に立ちそうです。特に若い男性にとっては。。。一つでも好きな食品が分かると他に何が好きかある程度予想できますので、彼女を食事に誘うケースなどに使えませんか?