本コーパスは,Wikipedia記事1,494件に対して,促進・抑制関係を付与したコーパスです.
記事のタイトルが促進するもの(PRO
),タイトルが抑制するもの(SUP
),タイトルを促進するもの(PRO_BY
),タイトルを抑制するもの(SUP_BY
) を,記事の概要文中の表現に対してアノテーションしました.
付与対象の記事は,社会問題,災害,病気,技術革新,政策,金融,エネルギー技術,生体物質,栄養素 の5 つのカテゴリと,そのサブカテゴリ,サブサブカテゴリに収録されている記事の中から,ランダムに1,494 件を選びました.
また本コーパスは,クラウドソーシングを用いて1つの記事につき10人にアノテーションしていただきました.クラウドソーシングの利用にあたって,コーパスに関係知識を付与する作業をクラウドソーシングで完結させるため,アノテーションツールであるbratを改変し,Yahoo!クラウドソーシングの外部作業サイトとして利用しました.
コーパスは,bratのアノテーションファイルとして提供されます.アノテーションファイルにはオフセット情報, メンションの表層の情報が含まれます。
以下にサンプルを示します.
例) annotations/PRO/0008/5.ann
T1 PRO 128 132 環境破壊
T2 PRO 133 138 自動車公害
T3 PRO 256 259 酸性雨
上記ファイルの1行目は、対応するテキストファイル(texts/0008.txt
)の 128文字目から132文字目までの 環境破壊
という文字列にPRO
というラベルが付与されたことを示しています。
項目 | 値 |
---|---|
記事数 | 1,494 |
1記事あたりのアノテーション人数 | 10 |
PRO アノテーション数 |
40,386 |
SUP アノテーション数 |
17,265 |
PRO_BY アノテーション数 |
30,025 |
SUP_BY アノテーション数 |
7,332 |
以下のリンクより作成したデータをウェブブラウザ上で閲覧することができます. (提供を終了しました)
本文の下にある色は付与された関係を表し,その濃淡は作業者の一致度を表しています.
以下のリンクより任意のWikipedia記事に対し,本コーパスを用いて作成された自動認識器によって,促進・抑制関係を自動で付与することができます. (提供を終了しました)
ビューアーと同様に本文の下にある色は付与された関係を表しています.
自動認識に関する詳細は、参考文献[1] をご覧ください.
本アノテーション情報 は クリエイティブ・コモンズ 表示 - 継承 3.0 非移植 ライセンスの下に提供されています。
本コーパスを利用した研究成果を発表される際は,以下の文献を参照いただけますと幸いです.
本コーパスの構築は、文部科学省科研費15H01702,15H05318,およびJST,CREST の支援を受けて行われました。記して感謝いたします。