RITE-2 は BC, MC, 大学入試(Exam BC, Exam Search), RITE4QA の4つのサブタスクと、ユニットテストパイロットタスクからなります。
BC サブタスクは基本的に参加必須です(RITE-2独自のMCサブタスクと応用タスク志向のその他サブタスクへの参加は任意ですが、ぜひともご参加ください)。 評価は公開リソースに含まれる評価ツールを用いて行います。
テキスト対<t1, t2>を入力としてt1から仮説t2が真だと推論し得るか、そうでないかを判別する2値分類問題です。
言い換え、含意、矛盾、独立の4種類が出力となる問題。 含意関係あり(forward / bidirectional)、含意関係なし(contradiction / independence)。
Wikipediaや教科書を参照しながら、大学入試センター試験の4択問題の各選択肢の正誤を判断するタスクです。 人間が試験問題を解くプロセスをRITEタスクとしてシミュレートし、知能システムの評価に本物の入試データを使う試みです。
大学入試サブタスクでは、2種類のデータを提供します。
Exam BC と Exam Search のデータは、t2は共通で文ペアのIDも共通です。したがって、Exam BC のデータを Exam Search サブタスクの検索手法の開発に利用することもできます。 また、t1に相当するテキストを人間が検索した結果のデータ(文書ID)も提供しますので、データの分析や学習データとして利用できます(フォーマルランでは検索結果のデータは提供されません)。
Exam Search サブタスクのデータでは、他のサブタスクと異なり、t1 は与えられません。 以下のように、t2 と含意関係ラベルのみが開発データとして与えられます。 システムは Wikipedia または教科書から t1 に相当するテキストを検索し、t2 が含意されるかどうか判定します。
<dataset> <pair id="1" label="Y"> <t2>パルテノン神殿の建つ丘は,アクロポリスと呼ばれている。</t2> </pair> <pair id="2" label="N"> <t2>パルテノン神殿は,ヘレニズム文化の影響下で建設された。</t2> </pair> </dataset>
大学入試サブタスクでは、以下の3つの評価を行います。
評価2では、試験問題の正答率を算出します。例えば、以下のような問題に対して(実際の問題は主に4択です)、
1. パルテノン神殿の建つ丘は,アクロポリスと呼ばれている。 2. パルテノン神殿は,ヘレニズム文化の影響下で建設された。
システムが 1 の文にはラベル Y, 2 の文にはラベル N を出力したとすると、試験問題に対する解答として 1 を選択したとみなします。複数の選択肢に対して Y が出力された場合は、確信度(confidence score)が最も高いものを答えとみなします。
評価3では、Exam Search サブタスクにおいて、システムが Wikipedia や教科書から t1 として検索した文書の正解率を測定します。ラン結果とともに、t1 として用いた文書の ID を提出してください(文書IDの提出方法は下記「提出フォーマット」を参照)。各 t2 ごとに、最大5つまで文書 ID を出力することができます(6つめ以降の文書 ID は評価からは除外されます)。
提出された検索結果について、含意関係ラベルが Y のものを対象に、各文書の中に実際に t2 を含意するテキストがあるかどうかを人手で判定します(システムがラベル N と判定した t2 については、人手判定を行いません)。正解か否かの基準は、開発データとして配布している人手による検索結果データと同じで、t2 を含意するテキスト(複数文でも構いません)が含まれているか、あるいは t2 の一部分を含意するテキストが含まれている場合に正解と判定します。検索の正解率は、適合率と再現率で評価します(適合率は、全システムの出力結果を統合したもののうち、人手判定により正解とされた文書 ID を gold standard とします)。
入出力はBinary-class サブタスクと同じだが、質問応答(QA)システムに組み込んだという設定で評価。質問応答の回答フィルタリングという実践的なシナリオに組み込んで評価したときの、RITEシステムの貢献度合いを知ることができる。
元データ: 過去の NTCIR からの日本語・中国語繁体字のQAデータセット(質問および正解)、および精度の高いQAシステムによる回答セット(各質問につき5個まで回答候補+ソース文書ID)
中国語簡体字データは繁体字データからの翻訳により生成。
テキスト含意関係を認識するためには、さまざまな意味・文脈解析が必要です。RITEタスクはそのような統合的意味解析を実現することを目的としていますが、一方で、個別の言語現象が見づらく、個別現象を対象とした研究がやりにくいという問題があります。
ユニットテストデータは、BCタスクで配布しているデータの一部に対して、t1とt2の関係を導くために必要な言語現象を単一要素にブレイクダウンしたデータです。t1からt2へ徐々に文を変換し、一段階の変換では単一の言語現象のみが現れるようにしています。
ユニットテストデータはBCタスクデータの一部を対象としており、データは小さいですが、たとえば以下のような研究に利用することができます。
ユニットテストデータは以下のようなXMLファイルで配布されます。
<dataset> <pair id="1-0" label="Y" category="entailment:phrase"> <t1>川端康成は、「雪国」などの作品でノーベル文学賞を受賞した。</t1> <t2>川端康成は、「雪国」などの作品の作者である。</t2> </pair> <pair id="1-1" label="Y" category="list"> <t1>川端康成は、「雪国」などの作品の作者である。</t1> <t2>川端康成は「雪国」の作者である。</t2> </pair> ...
label 属性は BC タスクと同じです。id 属性は X-Y という形式をしていて、X は BC タスクの対応するデータの id を指し、Y は同じ X に対応するデータを区別するための id です。Y=0 のデータの t1 は、BC のデータの t1 に対応します。
category 属性は言語現象を表すカテゴリで、下に示す一覧のうちどれか一つが示されます。各ペアの t1 と t2 の間では、category で示された言語現象のみが現れるようにしています(句読点の有無など、軽微なものを除く)。文中の複数個所が同じ言語現象で変換される場合は、一つのペアにまとめられています。
カテゴリは、以下の論文を参考に、日本語に合わせたものを用います。
現在のデータでは、言い回しが大きく変わる場合はフレーズの変換・不一致と分類される場合が多いため、雑多な現象に対してフレーズ関連のカテゴリが付与されています。さらに下位分類を行う必要があると考えられますが、現時点ではどのように分類すべきか明らかでないため、この状態でデータを配布します。
含意関係が成り立つ場合のカテゴリ | |
---|---|
synonymy:lex | 同義語・類義語による置き換え |
hypernymy:lex | 上位語・下位語による置き換え |
entailment:lex | 単語の含意・前提による置き換え |
meronymy:lex | 単語の全体・部分関係による置き換え |
synonymy:phrase | 同義フレーズ・類義フレーズによる置き換え |
hypernymy:phrase | 上位フレーズ・下位フレーズによる置き換え |
entailment:phrase | フレーズの含意・前提による置き換え |
meronymy:phrase | フレーズの全体・部分関係による置き換え |
nominalization | 名詞と動詞の変換など、同じ単語の品詞が変わる場合 |
coreference | 共参照や照応など、文中の単語で項(名詞の項を含む)を補う |
scrambling | 同じ文節に係る複数の文節の順番を入れ替える |
case_alternation | 受身や使役など、格が変わる場合 |
modifier | 修飾句を削除・挿入する |
transparent_head | フレーズの主辞を削除する(例えば、「AのB」のBを削除する) |
clause | 並列節や従属節を削除・挿入する |
list | 名詞句の並列句や集合から一つを取り出す |
apposition | 同格表現から IS-A などの関係を推論する(同格表現の一方を削除するだけの場合は modifier) |
relative_clause | 関係詞節から文を取り出したり、構造を変換する |
temporal | 時間に関する推論 |
spatial | 空間に関する推論 |
quantity | 数に関する推論 |
implicit_relation | 文中には明示されていない意味を文脈から推測する |
inference | 一般常識に基づく推論を行う |
含意関係が成り立たない場合のカテゴリ | |
---|---|
disagree:lex | 単語が一致しない |
disagree:phrase | フレーズが一致しない |
disagree:modality | モダリティが一致しない |
disagree:modifier | 修飾句が一致しない |
disagree:temporal | 時間表現が一致しない |
disagree:spatial | 空間表現が一致しない |
disagree:quantity | 数量表現が一致しない |
訓練データおよびテスト(フォーマルラン)データは、次のXMLフォーマットにてこちらのウェブサイトから配布されます。
注:フォーマルランデータには label 属性はありません。ユニットテストデータの category 属性もありません。
<dataset> <pair id="1" label="Y"> <t1>アテネの市域の中心にアクロポリスの丘、北東部にリュカベットス山がそびえ、パルテノン神殿、聖イヨルイヨス礼拝堂などがある。</t1> <t2>パルテノン神殿の建つ丘は,アクロポリスと呼ばれている。</t2> </pair> <pair id="2" label="N"> <t1>パルテノン神殿は、ドーリア式神殿の最高傑作と言える作品である。</t1> <t2>パルテノン神殿は,ヘレニズム文化の影響下で建設された。</t2> </pair> </dataset>
開発支援の一つとして,含意関係認識に必要となる基本的な言語解析の結果を提供しています. 詳しくは,ドライランデータおよびフォーマルランデータの解析結果を参照ください.
出力ファイルの各行がテキストペアに対する出力結果を表します。
(Text Pair ID)[SPACE](Label)[SPACE](Confidence)[CR]
例:
1 Y 0.852 2 Y 0.943 3 Y 0.993 4 Y 1.000
3番目の列の確信度(confidence)は0から1の実数です。BC、MCサブタスクでは確信度カラムは今回は評価に用いないため任意ですが、将来的な研究目的のため、もしシステムで計算していれば提出を推奨いたします。大学入試、RITE4QA サブタスクでは確信度は同一トピックに対するYラベルのタイブレイクに用いますので必須です。
出力ファイルの各行が、t2 に対する検索結果の文書 ID を表します。
(Text Pair ID)[SPACE](Document ID)[SPACE](Document ID)[SPACE]...[CR]
例:
1 35 225 892 2 1028 298 3 821 1582 315 709
各 t2 につき、最大5つまで検索結果の文書 ID を出力してください。6つ以上の文書 ID を出力しても、6つめ以降の ID は評価から除外されます。
人手判定は、システムがラベル Y を出力した t2 についてのみ行います。ラベル N の t2 について文書 ID を出力しても構いませんが、評価からは除外されます。
Document ID は、配布データ(Wikipedia および教科書)の <page> タグ直下の <id> タグで示されています(下の例参照)。Wikipedia データでは、<page>内の複数個所に <id> タグがあるので、気を付けてください。
<page> <title>19世紀</title> <id>1615</id> ← これ ...
オーガナイザから提供されているTSUBAKIによる検索結果データを用いる場合は、Result タグの OrigId 属性が Document ID を示しています(下の例参照)。
<pair id="1"> <ResultSet ...> <Result OrigId="1615"> ← これ ...