FrontPage / Research Topics

研究内容 / Research Topics

情報伝達のための最も重要なメディアは、日本語や英語など、誰もが日常で使っている人間のための言語(ことば)です。人が話すこうした言語を、情報科学ではプログラミング言語などの形式言語と区別して「自然言語」と呼びます。 本研究室では、自然言語で表現され、伝達され、蓄積される情報や人の知識をコンピュータで処理するための基礎理論、基盤技術、応用技術に関する研究を行っています。自然言語処理(natural language processing)、人工知能(artificial intelligence)、知識情報処理(knowledge processing)、計算言語学(computational linguistics)、コミュニケーション科学(communication science)などの領域が我々のフィールドです。

The most important means for communication are the languages that we use everyday, like Japanese and English. In this lab, we conduct research in the following areas: (i) theoretical research to clarify and model the mechanism of communication, namely, what it means to understand language and the conditions that make communication possible (ii) Natural Language Processing research on the development of software that automatically processes the information and knowledge that is represented and transmitted in language; and (iii) applied research supporting intelligent communication or information analysis for the benefit of mankind. We approach an understanding of human intelligence from the perspective of natural language.

intro.png

インターネットやウェブの爆発的な普及によって、誰でも大量の情報を入手し、蓄積し、発信できる時代になりました。しかし、その一方で、あまりにも多くの情報がネット上に無秩序に分散しているために、欲しい情報をうまく探せなかったり、重要な情報の存在に気づかなかったり、情報が信用できるかどうか分からなかったり、といった問題も日常的に起こっています。 さて、ここで言う情報はその多くが自然言語ですから、求められるのは自然言語処理です。膨大な言語情報をもしコンピュータで自動的に収集し、選別し、分析できるようになれば、また自動的に他言語に翻訳したり、対話的に人に伝えることができるようになれば、我々を取り巻く情報環境は大きく変わるでしょう。そうした自然言語処理によるWeb情報分析コミュニケーション支援知識循環の重要性が急速に高まっています。

こうした目的を実現するためには、究極的には人の言葉を理解するコンピュータを開発する必要があります。もちろん、これは簡単な目標ではありません。しかし、自然言語処理の技術はそこに向けて着実に進歩しています。たとえば、これまでコンピュータに決定的に欠けていた常識的知識を、コンピュータ自身が大量の言語データから自動的に獲得して、より高度な言語意味解析推論に使う、といったことが少しずつ可能になり、大きなブレークスルーの兆しが見え始めています。

本研究室では、言葉が分かるとはどういうことか、コミュニケーションの成立条件は何かといった、情報伝達の仕組みを解明しモデル化する理論的研究、そして人間の知的な情報伝達、情報分析を支援するソフトウェアを構築する工学的研究を展開します。言葉から人の知に迫る。心躍る研究領域がここにあります。

Currently, we are in a period in which anyone can obtain and accumulate large quantities of information due to the widespread popularity of the Internet. However, due to the excessive amount of information that is widely spread on the Internet, often times it is difficult to successfully find desired information, recognize where important information exists, and to be able to trust every bit of information. Now, as most of this information is composed of natural language, there is a strong demand for Natural Language Processing (NLP). If computers were to automatically collect, sort, and analysis a large quantity of language information, as well as automatically translate other languages and interactively express information to individuals, our surrounding language environment would drastically change. Therefore, the importance of Web information analysis, communication support, and knowledge cycle via Natural Language Processing would rapidly increase.

In order to fulfill such an objective, it is absolutely necessary to develop technology which has the capability of understanding human language. Of course, this is not an easy objective. Luckily, NLP technologies have been steadily progressing towards this goal. For example, little by little, we are beginning to see signs of major breakthroughs due to the possibility of computers decisively being able to automatically acquire lacking world knowledge from a large amount of data and use for semantic analysis and inference.

In this laboratory, we expand upon this work by developing software which supports in theoretically solving communication structure and modeling, human being's intelligent communication, and information analysis. We aim for the wisdom of individuals by words. If you are looking for exciting research, then this laboratory is perfect.

ビッグデータの意味解析を可能にする自然言語処理技術(「東北大学研究シーズ集2013」より)

東北大学サイエンスカフェ YouTube動画「言葉がわかるコンピューターはどこまでできたか ~言葉の不思議と自然言語処理の最前線」(概要(河北新報社), スライド, 2013年2月)
ScienceCafe.png

河北新報 科学の泉「言葉が分かるコンピューターを作る(全6回)」
http://www.kahoku.co.jp/special/spe1124/backnumber201412.html

主な研究テーマ / Main Research Themes

基礎理論から基盤技術,応用技術まで幅広い研究テーマに取り組んでいます。

  1. 自然言語処理技術の高度化と頑健化
  2. 深い言語理解のための大規模な知識獲得と柔軟な推論
  3. ビッグデータと機械学習に基づく人工知能
  4. 言語情報・非言語情報・深い推論の統合による知能ロボット対話
  5. 自然言語処理によるウェブ・ソーシャルメディアの分析と編集
  6. 災害関連情報・リスク情報のコミュニケーション支援
  7. 機械翻訳・翻訳支援・言語学習支援などの多言語処理
  8. 言語・意味・コミュニケーションの数理モデル

From fundamental theory to core and applied technologies of NLP and AI, we are working on a wide range of research topics.

  1. Natural Language Processing Technology High Performance and Robustness
  2. Large-scale Knowledge Acquisition and Flexible Inference for Deep Language Understanding
  3. Artificial Intelligence based on Big Data and Machine Learning
  4. Analysis and Compilation of Web and Social Media by Natural Language Processing
  5. Support for Disaster-Related Information and Risk Information
  6. Multi-language Processing for Machine Translation, Translation Support, and Language Learning Support
  7. Intelligent Robot Dialogue via Verbal Information, Non-verbal Information, and Deep Inference Integration
  8. Mathematical Models for Language, Understanding, and Communication

メンバーの研究テーマ / Research Themes of Members

乾・鈴木研究室では、一人で一つの研究課題に取り組むこともできますし、数人でチームを構成して取り組むこともあります。メンバーの研究課題をこちらで紹介しています。 学位論文(卒業論文、修士論文、博士論文)はDissertationsでご覧になれます。

In Inui-Suzuki laboratory, you are allowed to work on a research theme on your own, and you can also work on a theme with a team of several members. Here, we introduce our members' research themes. Dissertations (graduation thesis, Master's thesis, Doctoral thesis) can be seen in Dissertations.

Step-QIスクール アドバンスト創造工学 / Step-QI School

乾・鈴木研ではStep-QIスクールにアドバンスト創造工学テーマを提供しています。テーマ名は「ウェブの海から知をつむぐ自然言語処理」です。これまでの研究テーマや成果発表などはこちらをご覧ください。

Step-Qi.png

応用技術のテーマ例 / NLP and AI Applications

情報化社会の深化とウェブの爆発的な普及によって、ネットには日々莫大な量の情報や知識が流通し、その蓄積が進んでいます。こうしたネット上に散らばった情報や知識を発掘し整理することによって、新しい価値を持った「知」を創り出し、それを必要とするユーザに届ける。乾・鈴木研究室では、そうした情報や知識の高度な編集を自動化(あるいは支援)するソフトウェア技術の実現を目指しています。

With the rapid advancement in our current information society, the Internet, day by day, is advancing with an increase in both an enormous amount of information and knowledge. As information and knowledge on the Internet is often be scattered and can be difficult to conveniently find, it is extremely vital to discover such information and organize it in a way to conveniently provide it to its users. Within our laboratory, we aim for developing software technologies which can automatically assist in rapidly discovering such information and knowledge.

ウェブ・ソーシャルメディアの分析と編集 / Analyzing and Editing Information of the Web and Social Media

言葉は社会のいたるところに充ち満ちていますから、私たちの技術が活躍できる場所もどんどん広がっています。例えば、誰もが気軽に情報発信できるネットでは、既存メディアに勝るほどの価値を持った情報が流れると同時に、根拠の乏しい情報や悪意のあるデマも氾濫しています。こうした情報信頼性の問題に対して、本研究室では、様々なソースからの情報を自動解析し、重複する内容や矛盾する内容を検出することによって多角的な分析を可能にする言論マップ技術の開発を進めています。

Due to words and their role of being actively used in our society, our technology is also quickly spreading to be used actively in society as well. For example, on the Internet in which anyone has the ability to freely send information, at the same time existing information is being spread, unreliable information and false information is simultaneously being overwhelmingly spread. In regards to this information reliability problem, within this laboratory, we resolve various information sources automatically and analyze information from both sides which includes discovering agreeing and conflicting information with our Statement Map Project.

言論マップ生成研究を推進した産学連携プロジェクトのプレスリリース(2011年1月31日付)

言論マッププロジェクトのページはこちら

More information for the Statement Map project can be found here

stmap_screenshot.png

災害関連情報・リスク情報のコミュニケーション支援 / Supporting Crisis Information Management

災害時の被災地・支援者・行政を繋ぐコミュニケーションや様々なリスクに関するコミュニケーションを支援する自然言語処理技術の研究開発に取り組んでいます。

twitter.png

We currently develop Natural Language Processing technologies for bringing together communication between a disaster area, supporters, and various administrations.

東日本大震災ビッグデータワークショップに参加し、様々な取り組みを展開しました。詳細はこちらのページで紹介しています。

portal.png

テキストマイニング、意見・経験情報マイニング / Text Mining and Opinion/Experience Mining

ブログなど、Web上の膨大な文書集合から個人が発信する意見や体験情報を抽出し、構造化情報としてデータベース化できれば、互いの経験や知識を地球規模で共有し、もっと有効に活用できるようになります。

sentmining.png

From a collection of the vast amount of sentences on the Web (blogs, etc), we extract information regarding individual's opinions and personal experiences and, as structural information, apply it to a database in order to determine a common ground between various individual's personal experiences and knowledge and effectively take advantage of such information.

ロボット/エージェント対話 / Natural Language Dialogue Systems

高度な言語理解技術やそれを利用した情報アクセス技術を活用することによって、人と対話できるロボットやソフトウェアエージェントの開発に取り組みます。例えば、人の発話の感情を推定する技術を活用すると、「今日はディズニーランドに行ってきたんだ」に対して「楽しそうですね」、「財布を落としてしまった」に対して「え、大丈夫ですか?」といった適切な相づちを生成することができます。情報アクセス技術を利用すると、「僕はAppleの製品が好きなんだ」に対して、ウェブ上のApple製品に関する情報を利用して「iPhone5sのカメラは高性能だそうですね」や「iPadは授業でも使われているそうですね」といった発話ができ、会話を盛り上げるきっかけを作ることができます。

With the advancements of rapid language processing technologies and its information access, robots with the ability to communicate with humans and other software agents have been actively explored. For example, when using technology which is able to infer emotion by an individual's utterance, appropriate responses, such as "That sounds fun" in response to "I went to Disney Land today" and "Are you all right?" in response to "I lost my wallet" can be created. When using information access technology, given a sentence such as "I like Apple products", product information regarding the company Apple can be discovered on the Web and utterances such as "The iPhone5s camera seems to be high quality" and "The iPad is even being used in classrooms" can be said which allow for interesting conversation.

dialogue.png comm_robot.jpg

基盤技術 / Fundamental Technologies

構文解析・意味解析 / Syntactic and Semantic Parsing

文の構文構造(単語間の修飾関係)やそれが意味する内容(例えば出来事を表す述語とその構成要素)を高精度で頑健に自動解析する研究を進めます。

We are conducting research to automatically and robustly analyze the syntactic structure of sentences (qualitative relations between sentences) and their content meaning (for example, predicates expressing events and their constituent elements) with high precision.

nolink

談話解析・文脈解析 / Discourse Analysis

「それ」などの代名詞や「この+名詞」などの指示連体詞が、実際に何を指しているかを同定します。これは、情報抽出や対話システムなどの応用分野において必須の要素技術となります。

We are working on identifying the references for pronouns such as "that" and phrases such as "this + noun". This is crucial technology in applied fields such as information extraction and dialog systems.

nolink

大規模言語データからの知識獲得 / Knowledge Acquisition from Large-scale Text Data

数億文規模の大規模言語データから、例えばイベント間の因果関係や目的手段関係などの知識を自動獲得します。獲得した知識は意味・談話解析の高度化に利用します。

Using large-scale linguistic data consisting of hundreds of millions of sentences, we aim towards automatically acquiring knowledge such as the causal relation between events. The acquired knowledge is used to improve meaning and discourse analysis tasks.

nolink

人工知能:知識と推論 / Artificial Intelligence: Knowledge and Inference

私たち人間は言葉を使って意志を伝え、考えをまとめ、知識を記録します。人間と人間以外の動物を分けるのはこの言葉を使う能力です。この能力、改めて考えると、じつに驚異的です。私たちは、省略だらけの文章を難なく読みこなし、「庭に洗濯物を干したところに雨が降ってきた」と聞いて登場人物のガッカリした様子が瞬時に目に浮かびます。このように、言葉を理解するには単語や文法を知っているだけでは不十分で、言葉が伝える情景をイメージしたり、常識的知識を使いこなして何がなぜ起こったのかを推論したりと、高度な知能が求められます。自然言語処理がこうした深い言語理解をめざすとき、解くべき問題はもはや人工知能の根幹の問題そのものと言えます。これまで、人工知能の最大の問題は「知識のボトルネック」、すなわち思考に必要な常識的知識がコンピュータには決定的に欠けているという問題でした。しかしこの問題は、ネット上の膨大な文章を自動解析し、コンピュータ自身がそこから常識的知識を吸収することで解決できる可能性が見え始めています。乾・岡崎研は自然言語処理が人工知能にブレイクスルーをもたらす可能性を追究します。

inference.png

基礎理論 / Fundamental Theory

言語の数理モデル / Mathematical Models of Language and Communication

言語の意味を解析し、高度な言語理解に繋げるには、言語が持つ性質を数理統計的に捉え、言語の数理モデルを構築する必要があります。Webからマイニングした膨大な経験情報と組み合わせれば、人の行動や思考の原理に迫れるかもしれません。機械学習や確率統計、論理などの枠組みを駆使したモデル化に取り組みます。

Constructing statistical models that capture the properties of language and the mechanism of communication can be an effective way to incorporate semantic language analysis in applications such as advanced language understanding and information analysis.


© Inui Laboratory 2010-2018 All rights reserved.