解答可能性付き読解データセット

概要

「解答可能性付き読解データセット」は、56651件の質問・解答・文書の組に対して、「文書の読解によって質問に答えることができるかどうか」の人手による判断が付与されたデータセットです。

およそ12000件の早押しクイズの問題と正解に対して、関連する Wikipedia 記事段落(最大5件)の文章を機械的に付与し、それぞれの問題・正解・文章の組に対して、読解による解答可能性のスコアをクラウドソーシングによって付与しました。

クイズの問題には、クイズ大会「abc」および「EQIDEN」で2003年から2010年の間に使用された問題を使用しています。Wikipedia の文章としては、2017年10月1日時点の日本語版の内容を使用しています。

データセット作成方法の詳細等については、以下の文献をご参照ください。

鈴木正敏, 松田耕史, 岡崎直観, 乾健太郎. 読解による解答可能性を付与した質問応答データセットの構築. 言語処理学会第24回年次大会(NLP2018), March 2018.

ダウンロード

all-v1.0.json.gz (gzip 形式, 約12MB)

仕様

データセットの各行には、1つの質問・解答と、それに対する最大5件の関連文書と解答可能性スコアが JSON オブジェクトの形式で書かれています。以下に1問分の例を示します(実際のファイルでは1行で書かれています)。

{
  "qid": 105,
  "competition": "abc_01",
  "timestamp": "2003/03/30",
  "format": "早押し",
  "question": "京都・竜安寺の庭園のように、全く水を用いずに石や白砂で「山や水」を表現した、日本庭園の様式を何というでしょう?",
  "answer": "枯山水",
  "documents": [
    {
      "title": "枯山水",
      "text": "枯山水は水のない庭のことで、池や遣水などの水を用いずに石や砂などにより山水の風景を表現する庭園様式。例えば白砂や小石を敷いて水面に見立てることが多く、橋が架かっていればその下は水である。石の表面の紋様で水の流れを表現することもある。",
      "score": 5
    },
    {
      "title": "日本庭園",
      "text": "庭園内には灯籠、東屋(あずまや)、茶室なども配置される。また枯山水と称される、水を用いずに、石、砂、植栽などで水流を表現する形式の庭園も作られた。白砂で水の流れを象徴するところに特徴があるが、これは庭園には水が不可欠のものであるという考えがひそむ。庭園のことを山水といったのもそのためである。室町時代以降に
は枯山水は禅宗の思想と結びつき、禅寺などで多く作られていく。江戸期以降になると庭園内のみならず庭園外の景色を利用する借景という手法も広く用いられる。",
      "score": 5
    },
    {
      "title": "枯山水",
      "text": "抽象的な表現の庭が室町時代の禅宗寺院で特に用いられ発達した。従来の庭園でも技法として庭園の一部に用いられ、寝殿造庭園でも枯山水の部分を含み大名屋敷に造られていく回遊式庭園も枯山水を含んでいることがあったが、禅宗寺院で用いられて以降、独立した庭園として造られるようになった。日本庭園は水を得られる場所に築くも
のであったが、枯山水様式の登場後は必ずしも水を使わなくとも造園が可能になった。",
      "score": 3
    },
    {
      "title": "枯山水",
      "text": "西芳寺(下の方は池のある池泉回遊式庭園で上の方に枯山水庭園がある)や大徳寺の庭などが有名である。龍安寺の石庭は草木を用いず塀に囲まれた庭に白砂と15個の石組のみで表現した特異なもので、ひとつの場所からでしか全ての石が見えない構図になっており、その解釈を巡っては様々な説が唱えられている。",
      "score": 1
    },
    {
      "title": "桃山文化",
      "text": "桃山時代には、不老不死を祈念する鶴・亀や蓬莱などを表現する石組みと書院造の邸宅が調和する書院式庭園(書院造庭園)が多く造られた。ただし、「書院式庭園(書院造庭園)」の語は庭園様式ではなく、西本願寺書院の庭園が枯山水であるのに対し、二条城二の丸庭園は池泉式であるように、建物との関係にもとづいた分類呼称である
。",
      "score": 0
    }
  ]
}

オブジェクトの各キーの値が表す内容は以下の通りです。

質問

キー 値のデータ型 内容 備考
qid number 質問を一意に特定するID
competition string 問題が使われた大会
timestamp string 問題が使用された日付
format string 問題の出題形式 早押し または 筆記
question string 問題
answer string 正解
documents array 関連文書のリスト 0〜5件の文書

文書

キー 値のデータ型 内容 備考
title string 記事タイトル
text string 文章
score number 解答可能性スコア 0 以上 5 以下の整数

データの使用について

謝辞

関連リンク

  1. abc/EQIDEN 公式サイト
  2. abc/EQIDEN 過去の使用問題