本文へジャンプ

東京基礎研究所(TRL) > 
IBM Research

Human Computer Interaction

コンピューターシステムを実際に使うのは生身の人間です。より様々な状況下で、また、様々なハンディキャップを持った人々にも使いこなせるよう、ユーザーインターフェースにも不断の改良が求められています。TRLでは特に、音声技術と視覚障害者向けのアクセシビリティ技術において、業界を大きくリードしています。

研究分野
ロバスト音声認識
このプロジェクトでは人間の聞き取り能力を上回る性能を持つ音声認識機能の実現を目標としています。 まず実使用環境下での性能改善のため、音響処理の観点からは、定常騒音、突発性雑音の除去、マルチマイクロフォンを用いた目的話者の発話の検出および強調処理、残響の除去といった研究をしています。また言語処理の観点からは、自由発話の正確な書き起こしに向けて言い淀みのモデル化、未知語の自動獲得といった研究を推進しています。また、音声認識の利便性を高めるため、音声理解の研究も精力的に行っています。

自動構築可能なテキスト音声合成
このプロジェクトでは対象となる話者の発話をテキストだけから忠実に再現できるシステムの実現を目標としています。従来のテキスト音声合成の出力では、内容は正確に聞き取れるものの、対象とする話者が本来持つ個性は大きく失われ、その結果、愛着の持てるような声は生成できませんでした。言語処理にも音声認識で培った統計的言語処理の技術を導入し、収録音声から抽出された特徴量から言語モデルを構築するという新しい手法を提案することで、対象となるドメインを限定すれば、対象話者の生録音音声と遜色のない合成音声をテキストだけから生成できる見通しを得ています。
音声言語処理

音声分析技術
さまざまなビジネスの局面で、CRMやコンプライアンスチェックのため、テキストのみならず、お客様との音声による「やりとり」を分析することが望まれています。従来、対話における自由発話の認識は難しいとされてきましたが、ここ数年著しい進歩がありました。本プロジェクトでは主としてコールセンターでの実際の対話音声を対象として、認識精度の様々な阻害要因を分析すると同時に、オーディオインデクシングなどのアプリケーション技術にも取り組んでいます。

不可視バーコード技術
IBM不可視バーコード技術では、不可視インクを用いて新聞等の記事に重畳して印刷された2次元バーコードを、そのインクに反応する特殊な発光装置を搭載した携帯電話等で撮影し、その撮影画像から画像処理を組み合わせた抽出アルゴリズムによって情報を抽出します。これにより、場所、見栄えを気にせず新聞、書籍等の紙媒体に情報を埋め込むことが可能となり、紙メディアのポータル化が実現出来ます。
不可視バーコード技術

リッチインターネットアプリケーションのためのアクセシビリティ技術
障害者・高齢者を含むすべての人々がIT機器に容易にアクセスできることを目指し、Web閲覧を支援するシステムやコンテンツ作成を支援するシステムの研究開発に取り組んでいます。1997年に開発したホームページリーダーは全盲ユーザーのWeb閲覧を支援する音声ブラウザです。2007年には動画やアニメーションといったマルチメディア・コンテンツの閲覧も支援する音声ブラウザ、aiBrowserを開発しました。また、2003年から研究を進めているaDesignerは全盲のユーザビリティーを視覚化したり、弱視の見えをシミューレートすることで、アクセシブルかつユーザブルなコンテンツの作成を支援します。さらにAJAXやFlashなどのリッチインターネットアプリケーションのアクセシビリティを評価する技術やユーザビリティーを高める技術の開発を進めています。
アクセシビリティ・リサーチ
アクセシビリティ・リサーチ aiBrowser
アクセシビリティ・リサーチ aDesigner

Open Document Format(ODF) 標準化とツールの開発
Open Document Format(ODF)はワードプロセッサーや表計算などのオフィスアプリケーションのための次世代のXMLファイルフォーマットとして注目を集めています。この標準化に、OASIS ODFテクニカルコミッティーのメンバーとして参加し、アクセシビリティの向上に貢献しています。またODFのためのアクセシビリティ評価技術や、プレゼンテーション文書のアクセシビリティ向上ための技術などを開発しています。


これまでのプロジェクト・成果
  パーソナル・ビデオ・ダイジェスト
  映像理解
  メディアモニタリング・ソリューション


上に戻る