評価対象-評価表現抽出用 日本語Twitterデータセット

概要

本データセットは,参考文献[1] のデータセット作成手法に基づき,Twitterからサンプリングした公共交通機関名を含むツイートに対して,何らかの事物に対する実体験に基づく意見や感想(以下,評価情報)が含まれているか否かを付与したデータと,その中で評価情報が含まれているとされたツイートに対し,評価対象(意見や感想の対象,TARGET)と評価表現(意見や感想の内容,REVIEWを表す部分文字列をアノテーションしたデータからなります.

ダウンロードリンク

データ仕様

データセットはjson形式で提供されます.1行が1ツイートを表すオブジェクトとなっています.

母集団コーパスのサンプリング方法

以下の手順でフィルタリングを行なったコーパスに対してアノテーションを行いました.

  1. 2016年8月に投稿された("created_at"フィールドがXXX Aug XX XX:XX:XX +0000 2016である)日本語ツイートのうち,RTではない("retweeted"フィールドがfalseである)ツイートを収集.
  2. 公共交通機関名を含むツイートのみ収集.
  3. botと思われるアカウントを可能な限り排除する目的として,2016年8月1ヶ月の投稿で公共交通機関名を含むツイートが10回以下のアカウントのみ使用.
  4. 定型ツイートを可能な限り排除する目的として,頻繁に出現する「I'm at XXX in XXX」,「XXXなう」というツイート,および公共交通機関名のみからなるツイートを除去.

制限

本データセットにはツイート本文は含まれていません.Twitter APIの利用規約によりツイート本文の再配布が禁止されているためであり,コーパス利用者はTwitter APIを利用して,tweet_id_strフィールドの情報をもとにデータを復元する必要があります.また,非公開アカウントになったユーザーのツイートや,削除されたツイートのデータが正しく復元できない可能性もあります.その点ご了承ください.

データ例

評価情報分類コーパス

{
  "tweet_id_str": "XXXXXXXXXXXXXXXXX"       # Twitter APIの "id_str" フィールド
  "annotation": {	
    "122849XXXX": 1,                        # key: "ワーカーごとにユニークなid", value: ワーカーが付与したラベル(評価情報が含まれている:1,含まれていない:0)
    "122786XXXX": 0,                        
    "122792XXXX": 0,
    "122626XXXX": 0,
    "122872XXXX": 0
    }
}

評価対象-評価表現抽出コーパス

{
  "tweet_id_str": "XXXXXXXXXXXXXXXXXX"      # Twitter APIの "id_str" フィールド
  "is_review": "1"                          # 評価情報分類データ用バイナリ (評価情報が含まれている:"1", 含まれていない:"0")
  "annotation": [
    [
      {
        "worker_id": "hoge",               # ワーカーごとにユニークなID
        "TARGET": {                         
          "begin": 5,                       # ツイート内での評価対象を表す文字列の開始位置 (存在しない場合は -1)
          "end": 12                         # ツイート内での評価対象を表す文字列の終了位置 (存在しない場合は -1)
        },
        "REVIEW": {
          "begin": 15,                      # ツイート内での評価表現を表す文字列の開始位置 (存在しない場合は -1)
          "end": 22                         # ツイート内での評価表現を表す文字列の終了位置 (存在しない場合は -1)
        }
      }
    ], 
    [
      {
        "worker_id": "huga",
        "TARGET": {
          "begin": 0,
          "end": 12
        },
        "REVIEW": {
          "begin": 15,
          "end": 25
        }
      }, 
      {
        "worker_id": "huga",
        "TARGET": {
          "begin": -1,
          "end": -1
        },
        "REVIEW": {
          "begin": 30,
          "end": 35
        }
      }
    ],
    [
      {
        "worker_id": "piyo",
        "TARGET": {
          "begin": -1,
          "end": -1
        },
        "REVIEW": {
          "begin": -1,
          "end": -1
        }
      }
    ]
  ]
}

データセットの統計情報

評価情報分類コーパス

評価対象-評価表現抽出コーパス

ライセンス / 連絡先

本アノテーション情報は

クリエイティブ・コモンズ・ライセンス

クリエイティブ・コモンズ 表示 - 非営利 4.0 国際 ライセンスの下に提供されています.

参考文献

  1. 栗原理聡, 水本智也, 乾健太郎. Twitterによる評判分析を目的とした評価対象-評価表現データセット作成. 言語処理学会第24回年次大会(NLP2018), March 2018.