本データセットは,参考文献[1] のデータセット作成手法に基づき,Twitterからサンプリングした公共交通機関名を含むツイートに対して,何らかの事物に対する実体験に基づく意見や感想(以下,評価情報)が含まれているか否かを付与したデータと,その中で評価情報が含まれているとされたツイートに対し,評価対象(意見や感想の対象,TARGET
)と評価表現(意見や感想の内容,REVIEW
)を表す部分文字列をアノテーションしたデータからなります.
データセットはjson形式で提供されます.1行が1ツイートを表すオブジェクトとなっています.
以下の手順でフィルタリングを行なったコーパスに対してアノテーションを行いました.
XXX Aug XX XX:XX:XX +0000 2016
である)日本語ツイートのうち,RTではない("retweeted"フィールドがfalse
である)ツイートを収集.tweet_id_str
フィールドの情報をもとにデータを復元する必要があります.また,非公開アカウントになったユーザーのツイートや,削除されたツイートのデータが正しく復元できない可能性もあります.その点ご了承ください.
{
"tweet_id_str": "XXXXXXXXXXXXXXXXX" # Twitter APIの "id_str" フィールド
"annotation": {
"122849XXXX": 1, # key: "ワーカーごとにユニークなid", value: ワーカーが付与したラベル(評価情報が含まれている:1,含まれていない:0)
"122786XXXX": 0,
"122792XXXX": 0,
"122626XXXX": 0,
"122872XXXX": 0
}
}
{
"tweet_id_str": "XXXXXXXXXXXXXXXXXX" # Twitter APIの "id_str" フィールド
"is_review": "1" # 評価情報分類データ用バイナリ (評価情報が含まれている:"1", 含まれていない:"0")
"annotation": [
[
{
"worker_id": "hoge", # ワーカーごとにユニークなID
"TARGET": {
"begin": 5, # ツイート内での評価対象を表す文字列の開始位置 (存在しない場合は -1)
"end": 12 # ツイート内での評価対象を表す文字列の終了位置 (存在しない場合は -1)
},
"REVIEW": {
"begin": 15, # ツイート内での評価表現を表す文字列の開始位置 (存在しない場合は -1)
"end": 22 # ツイート内での評価表現を表す文字列の終了位置 (存在しない場合は -1)
}
}
],
[
{
"worker_id": "huga",
"TARGET": {
"begin": 0,
"end": 12
},
"REVIEW": {
"begin": 15,
"end": 25
}
},
{
"worker_id": "huga",
"TARGET": {
"begin": -1,
"end": -1
},
"REVIEW": {
"begin": 30,
"end": 35
}
}
],
[
{
"worker_id": "piyo",
"TARGET": {
"begin": -1,
"end": -1
},
"REVIEW": {
"begin": -1,
"end": -1
}
}
]
]
}
本アノテーション情報は
クリエイティブ・コモンズ 表示 - 非営利 4.0 国際 ライセンスの下に提供されています.