本コーパスは,Wikipedia記事1,494件に対して,促進・抑制関係を付与したコーパスです.
記事のタイトルが促進するもの(PRO),タイトルが抑制するもの(SUP),タイトルを促進するもの(PRO_BY),タイトルを抑制するもの(SUP_BY) を,記事の概要文中の表現に対してアノテーションしました.
付与対象の記事は,社会問題,災害,病気,技術革新,政策,金融,エネルギー技術,生体物質,栄養素 の5 つのカテゴリと,そのサブカテゴリ,サブサブカテゴリに収録されている記事の中から,ランダムに1,494 件を選びました.
また本コーパスは,クラウドソーシングを用いて1つの記事につき10人にアノテーションしていただきました.クラウドソーシングの利用にあたって,コーパスに関係知識を付与する作業をクラウドソーシングで完結させるため,アノテーションツールであるbratを改変し,Yahoo!クラウドソーシングの外部作業サイトとして利用しました.
コーパスは,bratのアノテーションファイルとして提供されます.アノテーションファイルにはオフセット情報, メンションの表層の情報が含まれます。
以下にサンプルを示します.
例) annotations/PRO/0008/5.ann
T1 PRO 128 132 環境破壊
T2 PRO 133 138 自動車公害
T3 PRO 256 259 酸性雨
上記ファイルの1行目は、対応するテキストファイル(texts/0008.txt)の 128文字目から132文字目までの 環境破壊 という文字列にPROというラベルが付与されたことを示しています。
| 項目 | 値 |
|---|---|
| 記事数 | 1,494 |
| 1記事あたりのアノテーション人数 | 10 |
PROアノテーション数 |
40,386 |
SUPアノテーション数 |
17,265 |
PRO_BYアノテーション数 |
30,025 |
SUP_BYアノテーション数 |
7,332 |
以下のリンクより作成したデータをウェブブラウザ上で閲覧することができます. (提供を終了しました)
本文の下にある色は付与された関係を表し,その濃淡は作業者の一致度を表しています.
以下のリンクより任意のWikipedia記事に対し,本コーパスを用いて作成された自動認識器によって,促進・抑制関係を自動で付与することができます. (提供を終了しました)
ビューアーと同様に本文の下にある色は付与された関係を表しています.
自動認識に関する詳細は、参考文献[1] をご覧ください.

本アノテーション情報 は クリエイティブ・コモンズ 表示 - 継承 3.0 非移植 ライセンスの下に提供されています。
本コーパスを利用した研究成果を発表される際は,以下の文献を参照いただけますと幸いです.
本コーパスの構築は、文部科学省科研費15H01702,15H05318,およびJST,CREST の支援を受けて行われました。記して感謝いたします。