wiki:メインページ

NTCIR-10 RITE2のフォーマルランはおかげ様で無事終了しました.

ニュース

概要

RITE-2 は自然言語処理や情報アクセス研究に広く共通する課題である、テキスト間の含意(推論)・換言(同じ意味)・矛盾の認識を目的とした、評価型ワークショップです。 共通の大規模なテストコレクションを用い、日本語、中国語(簡体字・繁体字)の各言語に対し参加者のシステムの評価を行うことで、 知見の獲得や、データ・ツールの開発促進、研究コミュニティの発展を目的としています。

RITE システムへの入力は、例えば次のようなテキストペアになります。

t1 : 川端康成は「雪国」などの作品でノーベル文学賞を受賞した。
t2 : 川端康成「雪国」の著者である。

期待する出力は “YES”、 “NO” の選択肢のうち “YES” となり、システムが正しく回答出来た場合にスコアが得られます。

NTCIR-9 RITEからの変更点

  • 大学入試サブタスク(日本語)の変更: RITE1ではBCサブタスクと同じタスク設定でしたが、NTCIR-10 RITE-2では、t1は明示的には与えられず、大規模テキスト(Wikipediaまたは教科書)からt2と含意関係にある文を探し、もしあれば含意と判断するタスクを行います。また、含意関係認識の精度に加えて、4択問題の正答率を評価指標として用います。RITE1と比べて、人間が試験問題に解答するプロセスにより近くなっています。RITE1と同様のデータ(BCサブタスクと同じように、t1が与えられる)も提供するので、検索を行わないチームも参加することができます。
  • ユニットテストの追加(日本語): 含意関係認識は様々な言語・意味解析が必要なため、個別の言語的・意味的現象に着目して研究することが難しいと言われています。BCデータの一部について、含意関係を個別の言語的・意味的現象にブレイクダウンしたデータを提供し、個別の言語的・意味的現象に着目した研究・評価をサポートします。
  • 代表的な言語解析結果の提供: 含意関係認識に必要となる基本的な言語解析結果(述語項構造解析、事実性解析など)の提供を予定しており、前回よりもタスクに参加しやすくなっています。

サブタスク

NTCIR-10 RITE-2 は次の4つのサブタスクからなります。

  • バイナリクラス(BC)サブタスク - テキスト対(t1, t2)を入力としてt1から仮説t2が真だと推論し得るか、そうでないかを判別する2値分類問題。一部のデータについては、含意関係を個別現象にブレイクダウンしたユニットテストデータを提供。
  • マルチクラス(MC)サブタスク - 含意の方向、矛盾の検出も加えた、次の4種類が出力となる問題。含意関係あり(forward / bi-directional)、含意関係なし(contradiction / independence)。
  • 大学入試サブタスク (日本語のみ) - Wikipediaや教科書を参照しながら、大学入試センター試験の4択問題の各選択肢の正誤を判断するタスク。人間が試験問題を解くプロセスをRITEのタスクとしてシミュレートしており、知能システムの評価に本物の入試データを使う試み。
  • RITE4QAサブタスク (中国語のみ) - 入出力はBinary-class サブタスクと同じだが、質問応答システムに組み込んだというシナリオで評価。質問応答(QA)の回答フィルタリングという実践的なシナリオに組み込んで評価したときの、RITEの貢献度合いを知ることができる。

参加のメリット

RITEは情報検索、質問応答、テキスト要約、評判分析など、幅広い研究分野に共通する基礎的問題に焦点を当てたタスクです。 これら応用分野の他にも、自然言語処理、機械学習などの研究者の方々の参加も大歓迎です。 RITEにおける評価は「フレンドリーコンペティション」ですので、必ずしもいい結果が期待できそうになくても、遠慮すること無くお気軽にご参加ください。 萌芽的な研究に基づくシステムでの参加や、専門科目履修を始めたばかりの大学生による参加なども大歓迎です。 また、参加は考え中だが、タスク設計の議論やデータ作成に携わってみたい、というような方もお気軽にご登録ください。 多様な参加者が集まることにより、研究コミュニティが発展していくことが期待されます。 また、RITEのような分野に馴染みがなくても、参加しやすくなる仕組みも用意しております。 参加者間で言語資源や自然言語処理ツールなどを共有し、評価システムに組み込んでもらえるような「リソースプール」ページを用意いたしました。

参加登録

以下のページから参加登録が可能です。締め切りは6月30日 8月31日です。

お問い合わせ先

RITE2オーガナイザ: ntc10-rite2-organizers (at) cs.cmu.edu

スケジュール

日程 イベント
2012年6月30日 8月31日 参加登録締め切り
2012年7月1日 7月5日 開発データリリース
2012年7月6日予定 ベースラインシステム,評価スクリプト,解析結果XMLへの変換スクリプト
2012年7月31日予定 ユニットテストデータ,大学入試サブタスク向け検索エンジンの提供
2012年11月14日〜21日 2013年1月9日〜16日 フォーマルラン
2013年1月23日 フォーマルラン結果公表
2013年2月下旬予定 Exam Search サブタスクの検索精度評価結果公表
2013年3月1日 論文(ドラフト)提出締め切り
2013年5月1日 論文(最終稿)提出締め切り
2013年6月18日〜21日 NTCIR-10 ワークショップ(東京)

オーガナイザ

言語 オーガナイザ(所属)
日本語 金山 博(IBM東京基礎研究所)
神門 典子(国立情報学研究所)
柴田 知秀(京都大学)
嶋 英樹(米国・カーネギーメロン大学)
武田 浩一(IBM東京基礎研究所)
水野 淳太(東北大学)
三田村 照子(米国・カーネギーメロン大学)
宮尾 祐介(国立情報学研究所)
渡邉 陽太郎(東北大学)
中国語(簡体字) 史 树明(中国・マイクロソフトアジア研究所)
中国語(繁体字) 林 川傑(台湾・国立台湾海洋大学)
李 政緯(台湾・国立中央研究院)

連絡先

  • ntc10-rite2-organizers (at) cs.cmu.edu