日本アイ・ビー・エム株式会社 東京基礎研究所 主任研究員
興味を持つ分野
「自然言語処理」に関する研究をしています。 これは、人々が普段書いたり話したりしている言葉を、(1)機械に理解させる (2)機械を使ってわかりやすくする (3)機械にとって扱いやすいデータとして蓄える、といったことを目指す分野です。
(1)は、「暑い!」と叫んだら冷房が自動的に入ったり、「かわいいね」と言ったらロボットが頬を赤らめるための技術。
(2)は、日本語を英語・韓国語・簡単な日本語・手話・点字などに変換して、元の文を読めない(読みづらい)人でも理解できるようにするための技術。
(3)は、人が書いた(しばしば大量の)文を、機械が得意とする形にする技術です。
例えば、「私の名前は鈴木太郎で、横浜市に住んでいます。」という文から、「名前=鈴木太郎, 住所=神奈川県横浜市」という解釈ができれば、人間向けの言葉が、機械のためのデータに変わるのです。
これらを実現するために、古くから、「言語的知識に基づく自然言語処理」、すなわち、大量の文法規則・単語辞書・常識などを記述していく方法が試されてきました。 しかし、例外的な文の存在、表現の曖昧性、時代による言葉の変化といった難しい問題があり、人間並みの柔軟性を持って言語を理解するような機械を作ることは困難でした。 そこで近年においては、複雑な文法規則などを使わずに、大量の文章から言葉の使われる傾向を取り出す「統計に基づく自然言語処理」が盛んに研究されています。
私の研究は主に、言語的知識と統計の両方を用いて、上記の(2)や(3)を目指すものです。 人間が持っている言語の知識のうち、機械に教えてあげやすい(人間がデータとして入力しやすい)知識はできるだけ使って、そうでない部分は大量のデータを用いて機械自身に学んでもらう。そして、機械が身につけた知識を、機械が使うだけでなく、人間にも理解できる形にすれば、人間と機械の双方が賢くなっていくのです。
主な研究内容
- 基礎技術
- 構文解析:日本語の構文構造(係り受け)を高精度で推定するプログラムを作成し、自然言語処理の各種アプリケーションの基盤として利用しています。
- 意味解析:「意味」を扱うということは、哲学的にも難しい問題なのですが、「人の役に立つような意味」を取り出すことを念頭に置いて、下記アプリケーションに役立つような意味構造を構築する研究を行っています。
- 応用
- 機械翻訳:世界中で半世紀以上にわたって研究されている、自然言語処理のアプリケーションの花形です。翻訳に必要な言語的知識を簡便に記述すること、多言語の翻訳を効率よく実現すること、翻訳の性能を客観的に評価して見通しの良い開発に貢献すること、などを考えてきました。
- テキストマイニング:大量の文書データから、企業活動の活性化・健全化に必要な知識を発見するシステムです。文中に記述されている概念・書き手の意図などを正確に捉える技術により、高度な知識を迅速に整理・発見できるようになります。
- 評判分析:テキストマイニングの一形態、または発展形です。人々の意見の中から、製品やサービスの良い点・悪い点や、要望されている事柄などを分類・整理するための技術です。
- 文書校正:文法や用語の誤りを修正したりするだけでなく、状況に応じた意味的、機能的な面の指摘を自動的に行い、文書の品質を向上させる方法を考えています。
- 質問応答:自然言語で書かれた質問に対して最適な答えをピンポイントで求めるという技術で、クイズ番組で人間と対戦するWatsonプロジェクトにも参加していました。知識源からの情報抽出をはじめとした要素技術の研究と、応用についての検討を行っています。
発表した論文・講演
論文誌
- Kanayama, H., Nasukawa, T.: "Unsupervised Lexicon Induction for Clause-level Detection of Evaluations", Journal of Natural Language Engineering, vol. 18, no. 1, pp. 83--107, 2011.
- 金山 博, 那須川哲哉, 渡辺日出雄: "木構造変換を利用した評判分析手法", 人工知能学会論文誌 vol. 26, no. 1, pp. 273--283, 2011. [PDF]

- 金山 博, 鳥澤健太郎, 光石 豊, 辻井潤一: "3つ以下の候補から係り先を選択する係り受け解析モデル", 自然言語処理 vol. 7, no. 5, pp. 71--91, 2000.
国際会議
- Kanayama, H. and Nasukawa T.: "Textual Demand Analysis: detection of users' wants and needs from opinions", In Proceedings of International Conference on Computational Linguistics (COLING), pp. 409--416, August 2008. [PDF]

- Ikawa, Y and Kanayama H.: "A New Document Masking Approach for Removing Confidential Information", In Proceedings of IEEE Conference on Enterprise Computing, E-Commerce and E-Services (EEE), 2007.
- Kanayama, H. and Nasukawa T.: "Fully Automatic Lexicon Expansion for Domain-oriented Sentiment Analysis" , In Proceedings of Empirical Methods in Natural Language Processing (EMNLP), pp. 355--363, July 2006. [PDF]

- Kanayama, H., Nasukawa T. and Watanabe, H.: "Deeper Sentiment Analysis Using Machine Translation Technology,", In Proceedings of the 20th International Conference on Computational Linguistics (COLING 2004), August 2004. [PDF]

- Kanayama, H. and Watanabe H.: "Multilingual Translation via Annotated Hub Language", Proc. of MT Summit IX, pp. 202--207, September 2003. [PDF]

- Kanayama, H: "Paraphrasing Rules for Automatic Evaluation of Translation into Japanese", Proc. of IWP2003 - The Second International Workshop on Paraphrasing, pp. 88--93, July 2003. [PDF]

- Kanayama, H: "An Iterative Algorithm for Translation Acquisition of Adpositions", Proc. of TMI 2002, pp. 85--95, March 2002. [PDF]

- Kanayama, H., Torisawa, K., Mitsuishi, Y., and Tsujii, J.: "A Hybrid Japanese Parser with Hand-crafted Grammar and Statistics", Proc. of 18th COLING, pp. 411--417, August 2000. [PDF]

- Kanayama, H., Torisawa, K., Mitsuishi, Y., and Tsujii, J.: "Statistical Dependency Analysis with an HPSG-based Japanese Grammar". In the Proceedings of the fifth Natural Language Processing Pacific Rim Symposium (NLPRS). pp. 138--143, November 1999.
国際ワークショップ(査読なし)
- Tsuboi, Y., Kanayama, H., Ohno, M. and Unno, Y.: "Syntactic difference based approach for NTCIR-9 RITE task", In Proceedings of the 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies, pp. 401--411, December 2011. [PDF]

- Shima, H., Kanayama, H., Lee, C. W., Lin C. J., Mitamura, T., Miyao, Y., Shi, S., Takeda, K.: "Overview of NTCIR-9 RITE: Recognizing Inference in TExt", In Proceedings of the 9th NTCIR Workshop Meeting on Evaluation of Information Access Technologies, pp. 291--301, December 2011.
国内会議
- 金山 博, 荻野紫穂: "Wikipediaの編集履歴を用いた書き換え候補の抽出", 言語処理学会第17回年次大会. (Mar. 2011)
- 金山 博, 那須川哲哉: "要望の対象の同定", 言語処理学会第14回年次大会. (Mar. 2008)
- 伊川洋平, 宅間大介, 金山 博: "安全語のアンマスキングによる機密情報マスキングシステム", 情報処理学会データベース研究会 夏のデータベースワークショップ(DBWS), 2006.
- 金山 博: "読点に頼らない統計的構文解析", 情報処理学会第170回自然言語処理研究会. pp. 61--66. (Nov. 2005)
- 金山 博, 那須川哲哉: "要望表現の抽出と整理", 言語処理学会第11回年次大会. pp. 660--663. (Mar. 2005)
- 那須川哲哉, 金山 博, 坪井祐太, 渡辺日出雄: "好不評文脈を応用した自然言語処理", 言語処理学会第11回年次大会. pp. 153--156 (Mar. 2005)
- 那須川哲哉, 金山博: "文脈一貫性を利用した極性付評価表現の語彙獲得", 情報処理学会第162回自然言語処理研究会. pp. 109--116 (Jul. 2004)
- 金山 博: "統計的構文解析器の部分的改良", 情報処理学会第160回自然言語処理研究会. pp. 1--8. (Mar. 2004)
- 金山 博, 荻野紫穂: "翻訳精度評価手法 BLEU の日英翻訳への適用", 情報処理学会第154回自然言語処理研究会. (Mar. 2003)
- 金山 博, 鳥澤 健太郎, 光石 豊, 辻井潤一: "3つ組・4つ組モデルによる日本語係り受け解析", 言語処理学会第6回年次大会. pp. 487--490. (Mar. 2000)
- 金山 博, 緒方典裕, 辻井潤一, "照応・時制のunderspecifiedな談話表示構造", 言語処理学会第4回年次大会. pp. 35--38. (Mar. 1998)
解説等
- 金山 博, 武田 浩一: "Watson: クイズ番組に挑戦する質問応答システム", 「情報処理」 Vol.52 No.7, 2011.
- 金山 博: "テキストを用いた評判と嗜好の分析", 特集記事「利用者の好みをとらえ活かす-嗜好抽出技術の最前線」, 「情報処理」 Vol.48 No.9, 2007.
- 竹内 広宜,金山 博,武田 浩一,渡辺 日出雄: "UIMA(非構造情報処理アーキテクチャー)", 研究のツールボックス(6), 「人工知能学会誌」 Vol. 22, No. 6, 2007.
講演, 講義
- 金山 博: "質問応答システムWatsonのクイズ番組における対戦", 特別講演, 電子情報通信学会PRMU/DE研究会, 2011.
- 金山 博: "Watson ~クイズ番組に挑戦した質問応答システム~", 名古屋NLPセミナー, 2011.
- 金山 博, David Ferrucci: "Watson ~クイズ番組に挑戦する質問応答システム~", 招待講演, 第12回音声言語シンポジウム, 2010.
- 金山 博: "評判と要望の分析", 慶応大学大学院サービスサイエンス特別講義, 2009, 2010.
- Hiroshi Kanayama: "ESPER: Extractor of Sentiment and Preference ExpRessions", LTI Seminar at Carnegie Mellon University. 18 April, 2008.
受賞・その他
受賞
- 言語処理学会第11回年次大会 優秀発表賞
学会活動
- 電子情報通信学会 言語とコミュニケーション研究会 幹事補佐 (2010~)
- NTCIR-9 RITE タスクオーガナイザー (2010~2011)
- PC member of EMNLP 2011
- PC member of NAACL-HLT 2010
- PC member of COLING 2010
- 言語処理学会 編集委員 (2008~2010)
- PC member of ACL-IJCNLP 2009
- PC member of AIRS 2009
- PC member of EMNLP 2009
- 電子情報通信学会 言語とコミュニケーション研究会 専門委員 (2005~2010)
- PC member of EMNLP 2008
- PC member of ACL-HLT 2008
- PC member of EMNLP-CoNLL 2007
- 言語処理学会第12回年次大会ワークショップ「感情・評価・態度と言語」プログラム委員(2006)
