日本語Wikificationコーパス ver 0.1 (2016/03/10)

本コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。

日本語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。

本コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。本コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。

時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名(「二階」「南口」「202号室」等)

BCCWJ,拡張固有表現タグ付きコーパス, 日本語Wikificationコーパスには、概ね以下のような包含関係があります。

提供方法

コーパスは、bratのアノテーションファイルとして提供されます。エンティティのID(Wikipediaの記事にユニーク付与されているID), オフセット情報, メンションの表層の情報が含まれます。

拡張固有表現タグ付きコーパスをお持ちの方は、付属のスクリプトを用いてタグ付きコーパスを生成することができます。

以下にサンプルを示します。

例) PN5g_00016.ann
T1      A 98 102        松下電工
T2      A 127 131       松下電工
T3      NIL 339 343     ジョーバ
N1      Reference T1 Wiki:105232        パナソニック電工
N2      Reference T2 Wiki:105232        パナソニック電工
N3      Reference T4 Wiki:105232        パナソニック電工

上記ファイルは、対応する XML ファイルの 98文字目から102文字目までの 松下電工 という文字列が(1行目)、Wikipediaの「パナソニック電工」というページ(page_id:105232)に対応するエンティティに対するメンションである、ということを示しています。

ダウンロード

コーパスの統計情報

項目
記事数 340
メンション数 25,675
リンク数 19,121
NIL数 6,554
メンションの種類数 7,118
エンティティの種類数 6,008

アノテーションはおおむね安定して行われており、一部を3人のアノテータで多重付与した結果、Cohen's Kappaは0.9を超えていることが分かっています。詳しくは、参考文献[1] の発表スライドをご覧ください。

アノテーションデータからのコーパスの復元方法

拡張固有表現タグ付きコーパスが必要です。

$ tar zxvf jawikify_20160310.tar.gz
$ cd jawikify_20160310
$ cp (拡張固有表現タグ付きコーパスのディレクトリ)/bccwj/xml/PN/*.xml .
$ python ./mergeann-all.py *.xml
(タグ付きコーパスが生成されます)

ライセンス

Reference

  1. Davaajav Jargalsaikhan, 岡崎直観, 松田耕史, 乾健太郎. 日本語 Wikification コーパスの構築に向けて. 言語処理学会第22回年次大会(NLP2016), March 2016. 論文 発表スライド(Dropbox)
  2. 松田耕史. 知識を紡ぐための言語処理と、そのための言語資源. NEologd Casual Talks. April 2016. 発表スライド(slideshare)