本文へジャンプ

テキストマイニングシステム -IBM TAKMI-

IBM TAKMI - Text Mining System

Japanese | English

概要

テキストマイニングの機能を実現した例として、TAKMI(Text Analysis and Knowledge Mining)を紹介します。

TAKMIとは、テキストデータの中から概念(キーワードとなる文字列とそのカテゴリー)を抽出し、定型情報と共にさまざまな統計量を計算した上で、その結果をさまざまな観点からユーザーに提示するものです。以下のようなマイニング機能及びビューを提供します。

テキストマイニングシステムIBM TAKMI
テキストマイニングシステムTAKMI

活用事例

このTAKMIを用いて、実際に企業のヘルプ・センターのテキスト情報を分析した事例をご紹介します。このテキストデータは日本アイ・ビー・エム(株)のPCヘルプセンターにおいて、顧客からの問い合わせをオペレーターが記録したものです。

この報告書には、機種名、問い合わせ種別(購入相談、要望など)、処理に要した時間などの定型情報のほかに、オペレータが具体的な応答内容を自由な形式の文章で入力したものが含まれています。 これらの定型情報とテキストのような非定型な情報から抽出した概念とを組み合わせてマイニングを行い、その結果を視覚化することが出来ます。 このツールには以下のような機能があります。

傾向分析

傾向分析ではあるカテゴリーに含まれるキーワードの時系列での推移を見ることが出来ます。

図では、1998年1月から1999年2月にかけてのソフトウエアに関する傾向を表しています。ソフトウエアのカテゴリーの中には、「アップグレード」「DOS」等のキーワードを見ることが出来ます。その中でも、1998年6月にWindows98の問い合わせが急増していることが分かります。

増減グラフ
増減グラフ

相対頻度
相対頻度

Windows98の中で,どのようなお問合せが多いか、実際にWindows98に対する問い合わせが多かった月(6月以降)の「ソフトウエア・・・質問」というカテゴリーを見てみます。すると「Windows98を(自分のPCに)導入可能か?」「(自分のPCが)Windows98に対応するか?」という内容が多いということが分かります。 そこで、この問い合わせに対して回答を日本IBMのホームページに公開したところ、Windows98の導入に関する問合せ件数は減少しました。

Windows98の導入に関する問合せ件数

このように、問い合わせの多い内容をホームページ上で公開することで問い合わせ件数を減らしたり、問い合わせを分析することで製品のフィードバックも期待できます。また、対処の結果としてお問い合わせ件数が実際に減っているかの検証も行うことが出来ます。

トピック抽出

トピック抽出では、ある文書集合に含まれるキーワード群や定型項目の時系列でのトピックを調べることが出来ます。トピック抽出は単に頻度の多いものを表示するのではなく、常に一定の頻度で出現するようなキーワードはトピックとは見なされません。

PCヘルプセンターのデータの中で、IBMの音声認識ソフトウエアViaVoiceTMの前身ソフトウエアVoiceTypeTMに対象を絞って分析を行いました。

Via Voice分析全体図
Via Voice分析全体図

図中で、VoiceTypeはViaVoiceの発表された1998年に向かってお問い合わせ件数が少なくなっているのが分かります。 ここで、お問い合わせの内容(トピック)と時間を2次元の表で表し、トピックの時間推移を見ます。

トピックの時間推移
トピックの時間推移

これにより、お問い合わせの内容が「購入相談」-「総合案内」-「要望」と推移しているのを見ることが出来ます。

このように、テキストの分析を通して製品のサイクルを確認したり、お問い合わせの状況を把握したりすることが出来ます。

2Dマップ(相関分析)

PCヘルプセンターには日本IBMのあらゆる製品のお問い合わせがきます。ここでは、PC(デスクトップ・ノートブック)の各機種においてどういう質問が多いかを分析します。

2Dマップと呼ばれる機能では、あるカテゴリーに属するキーワード群と、他のカテゴリーに属するキーワード群との対応関係を見ることが出来ます。ここで、専門用語(要望)とハードウエア(主に装置の名称等)を2次元の表にして見ることが出来ます。
いづれのカテゴリーのキーワードも自然言語処理によってコールセンターの応対者の書いた文書から抽出されます。
「専門用語…要望」というカテゴリは、専門用語に分類されるキーワードと要望に関する表現(主に動詞の付属語に含まれる表現から判断される)が同じ文中の係り受け関係にあるものが文中から抽出されたものです。

図中では縦軸がソフトウエア、横軸が専門用語…要望を示しています。 すると、ThinkPadでは「スペックを教えて欲しい」というお問い合わせが多いことが分かります。

2Dマップ
2Dマップ

要望―機種名2Dマップ
要望―機種名2Dマップ

さらに、個別のお問い合わせを見ると「メモリーを増設したい」というお問い合わせが、Aptivaでは46件、PS/Vでは12件あることが分かります。さらに、それぞれのブランドに関するお問い合わせに占める割合としては、Aptivaに関して0.7%、PS/Vに 関して2.15%となり、ブランド別の特徴という観点からすると、PS/Vに関する問い合わせに目立っていることが 分かります。

このように、ある機種に特化した問題や質問を膨大な質問の中から発見することが出来ます。

関連製品

IBM Cognos Content Analytics

当グループで長年にわたり研究開発を行ってきたIBM TAKMIがIBM Cognos Content Analyticsとしてリリースされています。


関連書籍

テキストマイニングを使う技術/作る技術 (那須川哲哉 著)

IBM TAKMIの研究開発に従事し、数多くの適用事例に関与した経験から、大量文書データから有益な情報を発見する秘訣をご紹介しています。