wiki:タスクガイドライン

タスクガイドライン

RITE-2 は BC, MC, 大学入試(Exam BC, Exam Search), RITE4QA の4つのサブタスクと、ユニットテストパイロットタスクからなります。

BC サブタスクは基本的に参加必須です(RITE-2独自のMCサブタスクと応用タスク志向のその他サブタスクへの参加は任意ですが、ぜひともご参加ください)。 評価は公開リソースに含まれる評価ツールを用いて行います。

BC サブタスク

テキスト対<t1, t2>を入力としてt1から仮説t2が真だと推論し得るか、そうでないかを判別する2値分類問題です。

  • ラベル: {Y,N}.
  • 言語: 日本語、中国語(簡体字)、中国語(繁体字)
  • 評価方法: Y, NのMacro F1

MC サブタスク

言い換え、含意、矛盾、独立の4種類が出力となる問題。 含意関係あり(forward / bidirectional)、含意関係なし(contradiction / independence)。

  • ラベル: {F,B,C,I}
    • F: forward entailment (t1がt2を含意かつt2がt1を含意しない場合)。
    • B: bidirectional entailment (t1がt2を含意しかつt2がt1を含意する場合)。
    • C: contradiction (t1がt2と矛盾する、つまり同時に起こりえない場合)。
    • I: independence (上記以外の場合)
  • 言語: 日本語、中国語(簡体字)、中国語(繁体字)
  • 評価方法: F,B,C,I のMacro F1

大学入試(Exam BC, Exam Search)サブタスク (日本語のみ)

Wikipediaや教科書を参照しながら、大学入試センター試験の4択問題の各選択肢の正誤を判断するタスクです。 人間が試験問題を解くプロセスをRITEタスクとしてシミュレートし、知能システムの評価に本物の入試データを使う試みです。

  • ラベル: {Y, N}
  • 言語: 日本語
  • 評価方法: Y, NのMacro F1、試験問題の正答率、検索結果の適合率・再現率

大学入試サブタスクでは、2種類のデータを提供します。

  • BC形式(Exam BC): BCサブタスクと同じデータフォーマットで、t1とt2の含意関係を認識します。t1はWikipediaから検索したテキストを人間が編集したもので、t2はセンター試験の選択肢です。
  • 検索形式(Exam Search): t1は与えられず、Wikipediaまたは教科書からt1に相当するテキストを検索し、t2を含意するかどうかを認識します。

Exam BC と Exam Search のデータは、t2は共通で文ペアのIDも共通です。したがって、Exam BC のデータを Exam Search サブタスクの検索手法の開発に利用することもできます。 また、t1に相当するテキストを人間が検索した結果のデータ(文書ID)も提供しますので、データの分析や学習データとして利用できます(フォーマルランでは検索結果のデータは提供されません)。

Exam Search サブタスクのデータでは、他のサブタスクと異なり、t1 は与えられません。 以下のように、t2 と含意関係ラベルのみが開発データとして与えられます。 システムは Wikipedia または教科書から t1 に相当するテキストを検索し、t2 が含意されるかどうか判定します。

<dataset>
  <pair id="1" label="Y">
    <t2>パルテノン神殿の建つ丘は,アクロポリスと呼ばれている。</t2>
  </pair>
  <pair id="2" label="N">
    <t2>パルテノン神殿は,ヘレニズム文化の影響下で建設された。</t2>
  </pair>
</dataset>

大学入試サブタスクでは、以下の3つの評価を行います。

  1. Y, N の Macro F1:BCサブタスクと同じ評価指標です。
  2. 試験問題の正答率:Y, N のラベルを元の試験問題の選択肢にマップし、試験問題の正答率を評価します。
  3. 検索結果の適合率・再現率(任意参加・Exam Search サブタスクのみ):Exam Search サブタスクにおいて、t1 として用いた文書の精度を評価します。

評価2では、試験問題の正答率を算出します。例えば、以下のような問題に対して(実際の問題は主に4択です)、

1. パルテノン神殿の建つ丘は,アクロポリスと呼ばれている。
2. パルテノン神殿は,ヘレニズム文化の影響下で建設された。

システムが 1 の文にはラベル Y, 2 の文にはラベル N を出力したとすると、試験問題に対する解答として 1 を選択したとみなします。複数の選択肢に対して Y が出力された場合は、確信度(confidence score)が最も高いものを答えとみなします。

評価3では、Exam Search サブタスクにおいて、システムが Wikipedia や教科書から t1 として検索した文書の正解率を測定します。ラン結果とともに、t1 として用いた文書の ID を提出してください(文書IDの提出方法は下記「提出フォーマット」を参照)。各 t2 ごとに、最大5つまで文書 ID を出力することができます(6つめ以降の文書 ID は評価からは除外されます)。

提出された検索結果について、含意関係ラベルが Y のものを対象に、各文書の中に実際に t2 を含意するテキストがあるかどうかを人手で判定します(システムがラベル N と判定した t2 については、人手判定を行いません)。正解か否かの基準は、開発データとして配布している人手による検索結果データと同じで、t2 を含意するテキスト(複数文でも構いません)が含まれているか、あるいは t2 の一部分を含意するテキストが含まれている場合に正解と判定します。検索の正解率は、適合率と再現率で評価します(適合率は、全システムの出力結果を統合したもののうち、人手判定により正解とされた文書 ID を gold standard とします)。

注意点

  • Exam Search のフォーマルランでは、Exam BC フォーマルランデータの t1 のデータは使わないでください。
  • 検索結果の評価は手作業で行うため、ラン提出数によっては全ての結果を評価できない可能性があります。その場合は、ランID が 01 のものから優先的に評価を行います。
  • 各システムの検索結果の出力は、人手評価の後、評価3に参加した全チーム(検索結果を提出したチーム)に配布します。検索結果の事後評価や、他システムとの比較に利用することができます。
  • 大学入試サブタスクは、t2に実際の試験問題を用いているため、t2を含意するテキストが複数個所に分かれていたり、t2を完全に含意するテキストが見つからない場合もあります。また、BC形式のデータにおいても、含意関係が厳密には成り立たないデータも含まれています。

RITE4QA サブタスク (中国語(繁体字・簡体字)のみ)

入出力はBinary-class サブタスクと同じだが、質問応答(QA)システムに組み込んだという設定で評価。質問応答の回答フィルタリングという実践的なシナリオに組み込んで評価したときの、RITEシステムの貢献度合いを知ることができる。

  • ラベル: {Y,N}
  • 言語: 中国語(簡体字)、中国語(繁体字)
  • 評価方法: Mean Reciprocal Rank (MRR) およびラベル分類精度(正しかったラベルの数の割合)。
RITE4QAデータ作成手順
元データ: 過去の NTCIR からの日本語・中国語繁体字のQAデータセット(質問および正解)、および精度の高いQAシステムによる回答セット(各質問につき5個まで回答候補+ソース文書ID)
  • t1: 回答候補を含む文 (ソース文書に複数の文があるときは、質問文とのオーバーラップが一番高い文を自動選択)
  • t2: 質問文から改変した文 - 「Xが生まれたのはいつですか?」という質問から、まず「Xは<ANSWER>に生まれた。」というテンプレートを自動生成(人手による最小限の修正あり)。 <ANSWER> の部分に回答候補を代入することで完成。
  • ラベル: 正解(correct+supported)である回答候補から作ったペアにはY、そうでなれけばN。

中国語簡体字データは繁体字データからの翻訳により生成。

注意点
  • QAシステムという応用アプリケーション内で RITE BC システムがコンポーネントとして使われたという状況をできるだけ忠実に実現するため、RITE4QA データはほぼ全自動で作られています。t2も自動生成によるノイズが入り、文法的に間違った文が存在する可能性が若干あります。
    • そのため、Yラベルがついていても、t2がt1から推論できると言えないケースもあり得ます (例えば、t1が代名詞などを含んだままのことや、t2がt1から推論し得ない新情報を持っている場合があります).
  • ルール
    • BCとMCサブタスクの開発データとテストデータ両方を用いてRITE4QAシステムを開発することが可能です。RITE4QA用の開発データも別途公開されますので、既存のBCシステムのドメイン適応や転移学習などにご利用いただけます。
    • 既存の RITE BC システムを使うことも、新規に開発することも可能です。参加者ペーパーにはできるだけ詳しくお書きください。
  • 過去の NTCIR の QA データのご利用はお控えください。

ユニットテスト(UnitTest) (日本語のみ)

テキスト含意関係を認識するためには、さまざまな意味・文脈解析が必要です。RITEタスクはそのような統合的意味解析を実現することを目的としていますが、一方で、個別の言語現象が見づらく、個別現象を対象とした研究がやりにくいという問題があります。

ユニットテストデータは、BCタスクで配布しているデータの一部に対して、t1とt2の関係を導くために必要な言語現象を単一要素にブレイクダウンしたデータです。t1からt2へ徐々に文を変換し、一段階の変換では単一の言語現象のみが現れるようにしています。

  • ラベル: {Y,N}
  • 言語: 日本語
  • 評価方法: Y, NのMacro F1

ユニットテストデータはBCタスクデータの一部を対象としており、データは小さいですが、たとえば以下のような研究に利用することができます。

  • RITEのデータに現れる言語現象を分析
  • 言語現象ごとに認識精度を評価
  • 言語現象ごとの認識器を開発・学習

ユニットテストデータは以下のようなXMLファイルで配布されます。

<dataset>
  <pair id="1-0" label="Y" category="entailment:phrase">
    <t1>川端康成は、「雪国」などの作品でノーベル文学賞を受賞した。</t1>
    <t2>川端康成は、「雪国」などの作品の作者である。</t2>
  </pair>
  <pair id="1-1" label="Y" category="list">
    <t1>川端康成は、「雪国」などの作品の作者である。</t1>
    <t2>川端康成は「雪国」の作者である。</t2>
  </pair>
...

label 属性は BC タスクと同じです。id 属性は X-Y という形式をしていて、X は BC タスクの対応するデータの id を指し、Y は同じ X に対応するデータを区別するための id です。Y=0 のデータの t1 は、BC のデータの t1 に対応します。

category 属性は言語現象を表すカテゴリで、下に示す一覧のうちどれか一つが示されます。各ペアの t1 と t2 の間では、category で示された言語現象のみが現れるようにしています(句読点の有無など、軽微なものを除く)。文中の複数個所が同じ言語現象で変換される場合は、一つのペアにまとめられています。

カテゴリは、以下の論文を参考に、日本語に合わせたものを用います。

  • Bentivogli et al. (2010) Building Textual Entailment Specialized Data Sets: a Methodology for Isolating Linguistic Phenomena Relevant to Inference.
  • Sammons et al. (2010) “Ask not what Textual Entailment can do for You…”

現在のデータでは、言い回しが大きく変わる場合はフレーズの変換・不一致と分類される場合が多いため、雑多な現象に対してフレーズ関連のカテゴリが付与されています。さらに下位分類を行う必要があると考えられますが、現時点ではどのように分類すべきか明らかでないため、この状態でデータを配布します。

含意関係が成り立つ場合のカテゴリ
synonymy:lex 同義語・類義語による置き換え
hypernymy:lex 上位語・下位語による置き換え
entailment:lex 単語の含意・前提による置き換え
meronymy:lex 単語の全体・部分関係による置き換え
synonymy:phrase 同義フレーズ・類義フレーズによる置き換え
hypernymy:phrase 上位フレーズ・下位フレーズによる置き換え
entailment:phrase フレーズの含意・前提による置き換え
meronymy:phrase フレーズの全体・部分関係による置き換え
nominalization 名詞と動詞の変換など、同じ単語の品詞が変わる場合
coreference 共参照や照応など、文中の単語で項(名詞の項を含む)を補う
scrambling 同じ文節に係る複数の文節の順番を入れ替える
case_alternation 受身や使役など、格が変わる場合
modifier 修飾句を削除・挿入する
transparent_head フレーズの主辞を削除する(例えば、「AのB」のBを削除する)
clause 並列節や従属節を削除・挿入する
list 名詞句の並列句や集合から一つを取り出す
apposition 同格表現から IS-A などの関係を推論する(同格表現の一方を削除するだけの場合は modifier)
relative_clause 関係詞節から文を取り出したり、構造を変換する
temporal 時間に関する推論
spatial 空間に関する推論
quantity 数に関する推論
implicit_relation 文中には明示されていない意味を文脈から推測する
inference 一般常識に基づく推論を行う
含意関係が成り立たない場合のカテゴリ
disagree:lex 単語が一致しない
disagree:phrase フレーズが一致しない
disagree:modality モダリティが一致しない
disagree:modifier 修飾句が一致しない
disagree:temporal 時間表現が一致しない
disagree:spatial 空間表現が一致しない
disagree:quantity 数量表現が一致しない

データフォーマット

訓練データおよびテスト(フォーマルラン)データは、次のXMLフォーマットにてこちらのウェブサイトから配布されます。

注:フォーマルランデータには label 属性はありません。ユニットテストデータの category 属性もありません。

<dataset>
  <pair id="1" label="Y">
    <t1>アテネの市域の中心にアクロポリスの丘、北東部にリュカベットス山がそびえ、パルテノン神殿、聖イヨルイヨス礼拝堂などがある。</t1>
    <t2>パルテノン神殿の建つ丘は,アクロポリスと呼ばれている。</t2>
  </pair>
  <pair id="2" label="N">
    <t1>パルテノン神殿は、ドーリア式神殿の最高傑作と言える作品である。</t1>
    <t2>パルテノン神殿は,ヘレニズム文化の影響下で建設された。</t2>
  </pair>
</dataset>

言語解析結果の提供

開発支援の一つとして,含意関係認識に必要となる基本的な言語解析の結果を提供しています. 詳しくは,ドライランデータおよびフォーマルランデータの解析結果を参照ください.

提出フォーマット

含意関係認識の結果(BC, MC, 大学入試, RITE4QA 共通)

出力ファイルの各行がテキストペアに対する出力結果を表します。

(Text Pair ID)[SPACE](Label)[SPACE](Confidence)[CR]

例:

1 Y 0.852
2 Y 0.943
3 Y 0.993
4 Y 1.000

3番目の列の確信度(confidence)は0から1の実数です。BC、MCサブタスクでは確信度カラムは今回は評価に用いないため任意ですが、将来的な研究目的のため、もしシステムで計算していれば提出を推奨いたします。大学入試、RITE4QA サブタスクでは確信度は同一トピックに対するYラベルのタイブレイクに用いますので必須です。

t1 の検索結果(Exam Search サブタスクのみ、提出任意)

出力ファイルの各行が、t2 に対する検索結果の文書 ID を表します。

(Text Pair ID)[SPACE](Document ID)[SPACE](Document ID)[SPACE]...[CR]

例:

1 35 225 892
2 1028 298
3 821 1582 315 709

各 t2 につき、最大5つまで検索結果の文書 ID を出力してください。6つ以上の文書 ID を出力しても、6つめ以降の ID は評価から除外されます。

人手判定は、システムがラベル Y を出力した t2 についてのみ行います。ラベル N の t2 について文書 ID を出力しても構いませんが、評価からは除外されます。

Document ID は、配布データ(Wikipedia および教科書)の <page> タグ直下の <id> タグで示されています(下の例参照)。Wikipedia データでは、<page>内の複数個所に <id> タグがあるので、気を付けてください。

<page>
  <title>19世紀</title>
  <id>1615</id> ← これ
  ...

オーガナイザから提供されているTSUBAKIによる検索結果データを用いる場合は、Result タグの OrigId 属性が Document ID を示しています(下の例参照)。

<pair id="1">
  <ResultSet ...>
    <Result OrigId="1615"> ← これ
    ...

NTCIR-10 ワークショップへの参加

  • 参加チームのうち少なくとも1名はNTCIR-10ワークショップ(東京・学術総合センター、2013年6月18~21日)にご参加ください。
  • 参加チームにはすべてポスター発表の機会があります。
  • 優れた参加者論文を書いた少数のチームには、全員参加のセッションにて口頭発表をしていただきます。(選考基準:新規性、有用性、口頭発表の多様性など)。