Wikipedia記事への促進・抑制関係付与コーパス

本コーパスは,Wikipedia記事1,494件に対して,促進・抑制関係を付与したコーパスです.

記事のタイトルが促進するもの(PRO),タイトルが抑制するもの(SUP),タイトルを促進するもの(PRO_BY),タイトルを抑制するもの(SUP_BY) を,記事の概要文中の表現に対してアノテーションしました.

付与対象の記事は,社会問題,災害,病気,技術革新,政策,金融,エネルギー技術,生体物質,栄養素 の5 つのカテゴリと,そのサブカテゴリ,サブサブカテゴリに収録されている記事の中から,ランダムに1,494 件を選びました.

また本コーパスは,クラウドソーシングを用いて1つの記事につき10人にアノテーションしていただきました.クラウドソーシングの利用にあたって,コーパスに関係知識を付与する作業をクラウドソーシングで完結させるため,アノテーションツールであるbratを改変し,Yahoo!クラウドソーシングの外部作業サイトとして利用しました.

提供方法

コーパスは,bratのアノテーションファイルとして提供されます.アノテーションファイルにはオフセット情報, メンションの表層の情報が含まれます。

以下にサンプルを示します.

例) annotations/PRO/0008/5.ann

T1      PRO 128 132     環境破壊
T2      PRO 133 138     自動車公害
T3      PRO 256 259     酸性雨

上記ファイルの1行目は、対応するテキストファイル(texts/0008.txt)の 128文字目から132文字目までの 環境破壊 という文字列にPROというラベルが付与されたことを示しています。

ダウンロード

コーパスの統計情報

項目
記事数 1,494
1記事あたりのアノテーション人数 10
PROアノテーション数 40,386
SUPアノテーション数 17,265
PRO_BYアノテーション数 30,025
SUP_BYアノテーション数 7,332

ビューアー

以下のリンクより作成したデータをウェブブラウザ上で閲覧することができます. (提供を終了しました)

本文の下にある色は付与された関係を表し,その濃淡は作業者の一致度を表しています.

自動認識

以下のリンクより任意のWikipedia記事に対し,本コーパスを用いて作成された自動認識器によって,促進・抑制関係を自動で付与することができます. (提供を終了しました)

ビューアーと同様に本文の下にある色は付与された関係を表しています.

自動認識に関する詳細は、参考文献[1] をご覧ください.

ライセンス

Reference

  1. 塙一晃, 佐々木彬, 岡崎直観, 乾健太郎. クラウドソーシングによる関係知識のアノテーション. 言語処理学会第23回年次大会(NLP2017), March 2017.