本コーパスは、拡張固有表現タグ付きコーパス内の新聞記事(PNサブコーパス)340記事にアノテートされているENEに対して、対応するWikipediaエントリを付与したコーパスです。
日本語に対するEntity Linking, Wikificationエンジンの開発や評価に利用されることを想定して構築されました。
本コーパスの構築にあたってベースとした拡張固有表現タグ付きコーパスは、BCCWJのコアデータに対して、関根の拡張固有表現(Version 7.1)の境界情報を人手で付与したコーパスです。本コーパスでは、拡張固有表現タグ付きコーパスに付与されているENEのうち、以下のENEを除いたENEに、Wikipediaエントリを付与しています。
時間表現 / 数値表現 / アドレス / 称号名_その他(「くん」「さん」「様」等) / 施設部分名(「二階」「南口」「202号室」等)
BCCWJ,拡張固有表現タグ付きコーパス, 日本語Wikificationコーパスには、概ね以下のような包含関係があります。
コーパスは、bratのアノテーションファイルとして提供されます。エンティティのID(Wikipediaの記事にユニーク付与されているID), オフセット情報, メンションの表層の情報が含まれます。
拡張固有表現タグ付きコーパスをお持ちの方は、付属のスクリプトを用いてタグ付きコーパスを生成することができます。
以下にサンプルを示します。
例) PN5g_00016.ann
T1 A 98 102 松下電工
T2 A 127 131 松下電工
T3 NIL 339 343 ジョーバ
N1 Reference T1 Wiki:105232 パナソニック電工
N2 Reference T2 Wiki:105232 パナソニック電工
N3 Reference T4 Wiki:105232 パナソニック電工
上記ファイルは、対応する XML ファイルの 98文字目から102文字目までの 松下電工
という文字列が(1行目)、Wikipediaの「パナソニック電工」というページ(page_id:105232)に対応するエンティティに対するメンションである、ということを示しています。
項目 | 値 |
---|---|
記事数 | 340 |
メンション数 | 25,675 |
リンク数 | 19,121 |
NIL数 | 6,554 |
メンションの種類数 | 7,118 |
エンティティの種類数 | 6,008 |
アノテーションはおおむね安定して行われており、一部を3人のアノテータで多重付与した結果、Cohen's Kappaは0.9を超えていることが分かっています。詳しくは、参考文献[1] の発表スライドをご覧ください。
拡張固有表現タグ付きコーパスが必要です。
$ tar zxvf jawikify_20160310.tar.gz
$ cd jawikify_20160310
$ cp (拡張固有表現タグ付きコーパスのディレクトリ)/bccwj/xml/PN/*.xml .
$ python ./mergeann-all.py *.xml
(タグ付きコーパスが生成されます)
データに関するお問い合わせは 松田 耕史 (Koji Matsuda) < matsuda at ecei.tohoku.ac.jp > までお気軽にお寄せください.
本コーパスを利用した研究成果を発表される際は,以下の文献を参照いただけますと幸いです.
本コーパスの構築は、文部科学省受託研究「実社会ビッグデータ利活用のためのデータ統合・解析技術の研究開発」、及び文部科学省科研費(15H01702, 15H05318)から支援を受けて行われました。記して感謝いたします。