本文へジャンプ

テキスト・ネットワーク分析 -TENA-

Text and Network Analysis -TENA-

Japanese |

概要

テキスト・ネットワーク解析(Text and Network Analysis, TENA)とは、ブログやSNS(Social Network Service)といったソーシャルコンピューティング環境において、人やコンテンツの分析を行う技術です。従来は、それらの環境に存在するテキスト情報の分析、あるいはユーザー間の関係などによって作られるネットワーク構造の分析を、個別に行っていました。TENAは、これら2つの分析を統合されたひとつのプラットフォーム上で行うことを可能にします。

ブログなどのテキストコンテンツには、製品への評判や人の意見などが含まれます。それらのテキストはユーザーによって作成されたり、読まれたりします。またシステムによっては、そのテキストに対してコメントをつけたり、評価をつけたりすることも出来ます。このようなテキストとそれに伴う行動から、ユーザーの嗜好を推定することが可能です。また、ソーシャルコンピューティング環境上で注目すべき現象に「口コミ」と呼ばれる話題の伝播があります。このような話題の伝播を内容とともに捉えることで、ソーシャルコンピューティング環境上での特定の話題がユーザーに及ぼす影響度等を知ることが出来ます。

TENA概念図

TENAの特徴のひとつに「情報のすべてをネットワークとして捉える」ことがあげられます。ここでいう「ネットワーク」とは、メタ情報の付与された「ノード」の集合と、それらのノードを結ぶ「リンク」から成るグラフ構造を表しています。「ブログを書く」といった「ユーザーの行動」は、「ユーザー」と「テキストデータ」に「書いた」という関係があると考えることができます。これを、ユーザー「ノード」とテキストデータ「ノード」の間の「リンク」として表すことで、ネットワーク構造とみなすことができます。このネットワーク構造を分析することで、人であるユーザーの嗜好を分析したり、話題の伝播を観測したりすることを可能にします。

この技術は、IBMの基礎研究所の実証研究プログラムであるFOAK(First-Of-A-Kind)のプロジェクトとして株式会社サイバーエージェント様と実証研究を致しました。詳しくはプレスリリースをご参照ください。

技術詳細

TENAは、データを保持するデータベースの役割を果たすTENAコモンストア、アプリケーションで共通に用いられる分析を提供するTENA分析フレームワーク、及び分析を行うTENAアプリケーションの3つのコンポーネントから成ります。

TENAコンポーネント図
TENAの3つのコンポーネント

TENAコモンストアとTENA分析フレームワークは、テキスト分析とネットワーク分析を統合して行うためのプラットフォームです。テキスト分析、ネットワーク分析、及びテキストとネットワークの統合した分析の機能を、APIを通して提供します。

TENAコモンストアには、ユーザーやテキストなどのコンテンツをノード、ノード間の関係をリンクで示したグラフ状でデータが保存されます。ノード間の関係はユーザー同士の友人関係などの情報のほか、「ユーザーがテキストを読んだ」などの関係もリンクとして保持されます。

TENA分析フレームワークでは、TENAコモンストアに蓄積されたデータを分析する機能を提供するものです。基本的にはTENAアプリケーションで分析を実施しますが、各アプリケーションで共通で使われるものをこのフレームワークでは提供します。たとえばテキストを用いて時間的に変化するユーザーの興味をモデル化したり(興味マトリクス)、ノードとリンクの情報から特殊なグラフ構造を作成してノード同士の類似度を計算したり(2部グラフ分析)、といったものが用意されています。

TENA分析アプリケーションはTENAコモンストア、TENA分析フレームワークを用いて実際に分析を行うアプリケーションです。対象とするデータに応じて、様々なアプリケーションを構築することが可能です。

技術の詳細について詳しく知りたい場合は、developerWorksの記事をご参照ください。

TENAアプリケーション例

ここでは、TENAアプリケーションの一部をご紹介します。

コンテンツ推薦

ユーザーに対して、そのユーザーの嗜好に合わせて他のブログなどのコンテンツ推薦を行うものです。行動に基づいた推薦、テキストの内容に基づいた推薦、それら両方を加味した推薦などがあります。
この技術はサイバーエージェント様のアメーバブログで「オススメブログ」として提供されています。

ブログサポーターランキング

あるブログサイトに対して「熱心なファン度」に基づいて他のユーザーをランキングします。訪問履歴、訪問頻度・感覚、テキストの類似度、名前の言及など様々な角度からランキングします。
この技術はサイバーエージェント様のアメーバブログで「ブログサポーター」として提供されています。

掲示板内の注目発言抽出

返答構造を持った掲示板で、「賛成」「反対」などのテキスト内の意見を元に、その掲示板内で注目・支持された意見を抽出します
この技術はIBMが開催したオンラインディスカッションであるInnovationJam2008において、分析者が用いるJam分析ツール「JASMIN(Jam Analysis and Mining)」の機能の一部として提供されました。

Jam分析システムJASMIN
Jam分析システムJASMIN