評価対象-評価表現抽出用日本語Twitterデータセット

概要

本データセットは，参考文献[1] のデータセット作成手法に基づき，Twitterからサンプリングした公共交通機関名を含むツイートに対して，何らかの事物に対する実体験に基づく意見や感想（以下，評価情報）が含まれているか否かを付与したデータと，その中で評価情報が含まれているとされたツイートに対し，評価対象（意見や感想の対象，TARGET）と評価表現（意見や感想の内容，REVIEW）を表す部分文字列をアノテーションしたデータからなります．

ダウンロードリンク

評価情報分類コーパス（gz圧縮，595239 bytes）
評価対象-評価表現抽出コーパス（gz圧縮，431726 bytes）

データ仕様

データセットはjson形式で提供されます．1行が1ツイートを表すオブジェクトとなっています．

母集団コーパスのサンプリング方法

以下の手順でフィルタリングを行なったコーパスに対してアノテーションを行いました．

2016年8月に投稿された（"created_at"フィールドがXXX Aug XX XX:XX:XX +0000 2016である）日本語ツイートのうち，RTではない（"retweeted"フィールドがfalseである）ツイートを収集．
公共交通機関名を含むツイートのみ収集．
- 公共交通機関名のリストとして，GeoNLPで提供されている日本の鉄道駅と日本の空港を利用し，それに加え一般的に利用される通称として"羽田空港"，"成田空港"，"伊丹空港"，"大阪空港"，"関西空港"，"中部空港"を追加したリストを使用．
- 上記のリスト内の公共交通機関名を含むツイートのみ収集．
botと思われるアカウントを可能な限り排除する目的として，2016年8月1ヶ月の投稿で公共交通機関名を含むツイートが10回以下のアカウントのみ使用．
定型ツイートを可能な限り排除する目的として，頻繁に出現する「I'm at XXX in XXX」,「XXXなう」というツイート，および公共交通機関名のみからなるツイートを除去．

制限

本データセットにはツイート本文は含まれていません．Twitter APIの利用規約によりツイート本文の再配布が禁止されているためであり，コーパス利用者はTwitter APIを利用して，tweet_id_strフィールドの情報をもとにデータを復元する必要があります．また，非公開アカウントになったユーザーのツイートや，削除されたツイートのデータが正しく復元できない可能性もあります．その点ご了承ください．

データ例

評価情報分類コーパス

{
  "tweet_id_str": "XXXXXXXXXXXXXXXXX"       # Twitter APIの "id_str" フィールド
  "annotation": {	
    "122849XXXX": 1,                        # key: "ワーカーごとにユニークなid", value: ワーカーが付与したラベル（評価情報が含まれている：1，含まれていない：0）
    "122786XXXX": 0,                        
    "122792XXXX": 0,
    "122626XXXX": 0,
    "122872XXXX": 0
    }
}

評価対象-評価表現抽出コーパス

{
  "tweet_id_str": "XXXXXXXXXXXXXXXXXX"      # Twitter APIの "id_str" フィールド
  "is_review": "1"                          # 評価情報分類データ用バイナリ （評価情報が含まれている："1", 含まれていない："0"）
  "annotation": [
    [
      {
        "worker_id": "hoge",               # ワーカーごとにユニークなID
        "TARGET": {                         
          "begin": 5,                       # ツイート内での評価対象を表す文字列の開始位置 （存在しない場合は -1）
          "end": 12                         # ツイート内での評価対象を表す文字列の終了位置 （存在しない場合は -1）
        },
        "REVIEW": {
          "begin": 15,                      # ツイート内での評価表現を表す文字列の開始位置 （存在しない場合は -1）
          "end": 22                         # ツイート内での評価表現を表す文字列の終了位置 （存在しない場合は -1）
        }
      }
    ], 
    [
      {
        "worker_id": "huga",
        "TARGET": {
          "begin": 0,
          "end": 12
        },
        "REVIEW": {
          "begin": 15,
          "end": 25
        }
      }, 
      {
        "worker_id": "huga",
        "TARGET": {
          "begin": -1,
          "end": -1
        },
        "REVIEW": {
          "begin": 30,
          "end": 35
        }
      }
    ],
    [
      {
        "worker_id": "piyo",
        "TARGET": {
          "begin": -1,
          "end": -1
        },
        "REVIEW": {
          "begin": -1,
          "end": -1
        }
      }
    ]
  ]
}

データセットの統計情報

評価情報分類コーパス

ツイート数：39,600件

評価対象-評価表現抽出コーパス

ツイート数：6,980件
少なくとも1ワーカーが評価表現（REVIEW）ラベルを付与したツイート数：6,951件
平均ツイート長：57文字（SD = 34.93）
平均TARGET長：6文字（SD = 3.86）
平均REVIEW長：13文字（SD = 7.88）

ライセンス / 連絡先

本アノテーション情報は

クリエイティブ・コモンズ表示 - 非営利 4.0 国際ライセンスの下に提供されています．

データに関するお問い合わせは栗原理聡（Masatoshi Kurihara）< m.kurihara4inquiry at gmail.com > までお気軽にお寄せください．
本データセットを利用した研究成果を発表される際は，以下の文献を参照いただけますと幸いです．
- 栗原理聡, 水本智也, 乾健太郎. Twitterによる評判分析を目的とした評価対象-評価表現データセット作成. 言語処理学会第24回年次大会(NLP2018), March 2018．
本データセットの構築は，JST CREST(課題番号: JP-MJCR1301)，およびJSPS科研費15H01702の支援を受けて行われました．記して感謝いたします．

参考文献

栗原理聡, 水本智也, 乾健太郎. Twitterによる評判分析を目的とした評価対象-評価表現データセット作成. 言語処理学会第24回年次大会(NLP2018), March 2018.

評価対象-評価表現抽出用 日本語Twitterデータセット

概要

ダウンロードリンク

データ仕様

母集団コーパスのサンプリング方法

制限

データ例

評価情報分類コーパス

評価対象-評価表現抽出コーパス

データセットの統計情報

評価情報分類コーパス

評価対象-評価表現抽出コーパス

ライセンス / 連絡先

参考文献

評価対象-評価表現抽出用日本語Twitterデータセット