ニュース
[GDC 2012]“データの使い方教えます”。限られたデータからさまざまな情報を引き出す方法が語られた,データ分析専門企業の講演レポート
ダウンロード販売によって得られるデータといえば,落とされたタイトルの情報のほかは,ダウンロード日時とクレジットカード名義・番号ぐらいのものだが,ベリー氏はこれだけでもさまざまな分析ができると,その手法を紹介した。
※ただし,少なくとも日本国内においてはクレジットカード情報も個人情報保護法の対象となるため,使用する場合はその目的について,事前に本人の了解を取る必要がある
最初にベリー氏が注目したのはクレジットカードの名義だ。「名前が分かったぐらいでどうにかなるのか?」と思うかもしれないが,名前だけでも性別は推測できる。
ただし,中には「Taylor」のように,男女ともに用いられるような名前もある。日本語であれば使われている漢字も性別を判断するのに使えるだろうが,アルファベット表記ではそれができない。そこでベリー氏が注目したのは,社会保障局のデータベースだ。
アメリカにはソーシャルセキュリティーナンバー(社会保障番号)と呼ばれるものがあり,全国民と一部の外国人には登録が義務付けられている。名前,性別,生まれた年などのデータが,1880年から蓄積されているのだ。つまりこのデータを分析すれば,各名前における性別の割合を計算できるわけだ。今回例に挙げられた「Taylor」の場合は,下の図のようになっている。
そこで次にベリー氏が参照したのは,Center for Disease Control and Prevention(CDC:アメリカ疾病予防管理センター)のデータだ。ここには「○年生まれの人が何歳まで生きたか」という情報があり,たとえば1935年に生まれた人は,2000年の段階で82.4%生存しているという。このデータを前述した社会保障局のデータと合わせることによって,下の図のような結果が出る。同じことをさまざま名前に対して行うと考えると気の遠くなるような作業だが,つまりは名前のデータだけでもそれなりに精度の高い性別のデータを作れるのだ。
――といったように,自分達が得た情報を基に,ほかのデータと組み合わせて分析を進めれば,さまざまなことが分かる。もちろんこれはあくまでもデータマイニング方法の一つのサンプルであり,そのまま日本で可能なわけではない。だが,自分達で集めたデータだけでは調べられないことも,他者が提供するデータと組み合わせれば,有益な情報を得られるという本質は変わらないだろう。
もちろん,データマイニングはこれだけでは終わらない。上記のような方法で得られた情報を,いかに活用するが鍵だ。
その例としてベリー氏が挙げたのは,ほかのゲームや,映画,テレビドラマに関するデータを収集し,自社タイトルとの親和性を計るということ。自社タイトルをプレイしている人達がほかにどんなタイトルを遊んでいるのか,どんなテレビ番組や映画を観ているのなどが分かれば,広告の出稿先を選ぶときの参考にもなるだろう。
データを分析することによって,さまざまな無駄を省ける。「みんな分かってはいるが,そこまでは手が回っていない」という会社も少なくないという。もっとも,現在成功している会社の多くは,的確にデータマイニングを実施し,それを次の製品やサービスの開発・宣伝にしっかりと生かせているそうだ。
データを重視することからは,常識を打ち破る斬新なものは生まれにくいかもしれない。ただ,会社として一定期間のうちに成果を収めなければいけない状況なら,データからヒントを得て動くという姿勢は重要だろう。
もっとも,データ分析には膨大な時間と作業量がかかるので,ベリー氏が経営するようなデータ分析を専門とする会社にアウトソーシングをすることにもなる。だからこそ,ベリー氏はこういう形でタネを明かしているのだろう。
DataGeneticsコーポレートサイト
- この記事のURL: