データマイニングコンテストで優勝
2007年 IEEE ICDM国際会議で、参加者が共通の課題に取り組み、その予測精度を競う「データマイニングコンテスト」が開催されました。IEEE ICDM (IEEE International Conference on Data Mining) は、データマイニングの分野で権威ある国際会議です。
私たちTRLチームのデータ解析チームは、半教師付き学習などの最新の機械学習のスキルと、お客様へのデータ解析コンサルティングで培われた実問題への深い洞察力を生かし、予測精度において2位以下に12ポイント以上もの大差をつけて見事優勝しました。
| Rank | 正解率 [%] |
| 優勝(TRL チーム) | 82.26 |
| 2位 | 69.54 |
| 3位 | 68.93 |
図1: メンバーの写真
コンテストの課題
今回のコンテストの課題は屋内におけるモバイル機器の位置を推定するというものでした(図2)。入力となるのが屋内に固定された多数のアクセスポイントからの信号強度であり、それに基づいて自分がどの位置にいるかを推定します。データは信号強度の時系列として与えられ、そのごく一部分のみに位置情報が付加されています。この不完全な位置情報を頼りに、時系列の残りの部分の位置を予測せよ、というのが問題です。
反射、干渉、遮蔽、温度の変化などによって電波のノイズは非常に多くなるため、三角測量などの通常の手法では十分な精度での推定が困難であることが知られています。

図2: モバイル機器の位置推定問題
この種の問題は、マーケティングやヘルスケアなどの分野で現れ、応用上非常に重要です。例えば、現在、私たちデータ解析のチームはIBMコンサルティング部門と協業して、店舗内を歩く顧客の「動線」を解析するというプロジェクトに取り組んでいます。精度のよい動線解析が行えれば、より効果的な店舗運営を行うことができると期待されます。このモバイル機器の位置推定問題は、たとえばこのような応用を持っており、技術的困難さもさることながら、実応用の面でも非常に興味深い問題です。
高次元で複雑なデータから本質的なデータ構造を把握
この問題は、全データ中、位置が分かっているものは1割以下で、そのわずかな情報を元に残りの9割を推定するという非常に難しいものになっています。また、多数のアクセスポイントがあるため、入力データは約100次元の時系列データとなります。
このような困難な問題を解くカギは、「ラベルなしデータの活用」と「適切な距離尺度の定義」が握っています。
まず、高次元のデータをうまく扱うためには、余分な次元をノイズとしてより分けて、本質的なデータ構造を把握する必要があります。そのために、ラベルなしデータ(位置のわからないデータ)を元に本質的な構造を反映した空間を求め、その空間でデータを見ることにしました(図3)。

図3: 本質的なデータ構造の把握
半教師付き学習と距離尺度の工夫
さらに、半教師付き学習と呼ばれる手法と、時空間情報を取り入れた適切な距離の設計によって、うまくデータ空間の構造を捉えることに成功しました。
半教師付き学習は、正解の与えられていないデータをうまく利用する方法です。今回の問題の場合、似ているデータ同士をつなぎ、似ているデータ同士には似た予測を振るようにします(図4参照)。

図4: 似ている点のラベル予測
ここで私たちは、"似ているデータ"を適切に定義するために、時間と空間の両方を用いた近接度の設計を行いました。これは結果として、例えば三角測量で言うところの距離とは非常に異なったものになります。
まず、空間での近接度として、通常のユークリッド距離を数学的に拡張した距離を用いました(図5)。さらに、モバイル機器の向きの変更などで信号が大きく変化する場合でも、時間的に近ければその位置もまた似ていると推測できることを利用して、距離尺度に時間的近接性を反映させました。この2つの工夫で、位置の予測精度が飛躍的に向上させることができました。

図5: 異なるノルムを用いた場合の距離の等高線
