本文へジャンプ

音声言語処理

Speech and Language Processing

プロジェクトの概要

このプロジェクトではT.J.Watson研究所をはじめとする世界中の研究者と協力し,過去20年以上にわたって主に日本語の音声認識ならびに音声合成の研究に精力的に取り組んできました.これらの成果はViaVoiceや,らくらくウェブ散策といった個人向けソフトウェアから,コールセンター等の大規模システムにいたるまで幅広い分野で利用されています. 本プロジェクトの最終目標は,人間と同等,あるいはそれ以上の音声認識・音声合成能力をさまざまな種類の計算機上に実現することです.これにはカーナビをはじめとする車載機器や携帯電話,さらには情報家電,パーソナルロボットなど,通常の計算機とは異なる形をしているものが含まれます.この目標は人間の耳と口を機械化するに過ぎませんが,それでも多くの人を退屈な仕事から解放したり,分厚いマニュアルを読まなくても複雑な機械を操作できるようにするのに大いに役立つはずです.一方,脳にあたる部分はまだまだ人工知能と言えるようなものではありませんが,発話の内容を理解し,効率よく適切な回答を行う手法の研究も行っています.

ロバスト音声認識

ディクテーションと呼ばれる口述筆記の機能は97年にViaVoiceによって実現されましたが,音声認識にはまだ多くの課題が残されています.実はマイクが口の近くにあるといいのですが,さもないと音声認識にいろいろな弊害が出ます. 自動車の走行音や音楽,子供の声,駅のアナウンス,世の中にはいろいろな音があふれています. 人間はこれらの妨害音が少々あっても何の支障もなく対象となる音声を聞き取ることができるのですが,音声認識では大きな影響が出ます. これらの妨害音に対しても頑強(ロバスト)な音声認識を実現し,人間の耳の能力に近づけることが第一の目標です. そのために,雑音に強い認識アルゴリズムに加え,口唇画像情報の利用や,エコーキャンセラ,マイクロフォンアレイといった技術の研究を進めています.

大語彙音声認識

そのままでは消えていくだけの音声を文字に変換し,あとで活用したいという要望は大変強いのですが,そのためには人間あるいはそれ以上に高度な音声認識を実現する必要があります.特に電話で行われる会話や,会議での発言などには多くの重要な情報が含まれますが,雑音の問題だけでなく,音声自体が不明瞭だったり,すごく専門的な単語が使用されたりするため,その実現は容易ではありません.我々は本プロジェクト発足当初から20年以上にわたって取り組んでいる統計的手法に基づく音声認識手法の改良を進め,音声を発話者ごとにタグ付けし,的確に文字化する方法についての研究を行っています.

テキスト音声合成

テキストを声に変換するのがテキスト音声合成の基本機能です.内容が伝わればよいという基準であれば,20年以上前にこの機能は実現されているのですが,アクセシビリティの改善目的以外にはあまり広く使われていません.合成音声の内容は聞き取れるものの,その聞き取りに負担が伴ったり,発話が不自然で心地よさが感じられないのが原因です.ここでも人間(特にナレーターなど,プロの発話者)と同等の発話能力が必要とされていると思われます. 人間の声を忠実に再現するため,我々は大量の録音音声データを使う,コーパスベースと呼ばれる音声合成手法を採用しています.ただ,同じテキストを読んでも人によって息継ぎの場所,アクセントなどが微妙に異なります.我々はこの部分("発話者の癖のようなもの")をも統計的なモデルによって表現することで,発話者に忠実な声を,方言を含む幅広い分野のテキストに対して再現できると考え,研究を進めています. なお,音声合成は用途によって求められる話し方も違いますし,人それぞれに声の好みも違います.このような細かい要望にも迅速に答えられることが,真に役に立つユーザーインターフェースを実現するために重要であると考えおり,音声合成システムを学習によって完全自動構築する方法についても研究を進めています.

音声対話インターフェース

車載機器のインターフェースや,コールセンターの自動応答システムなど,実際の応用例を通して,音声認識,音声合成の最新技術を利用した音声対話システムの研究開発に注力しています.

研究発表・論文

音声認識全般

ロバスト音声認識

大語彙音声認識

音声合成