FrontPage / Project 311 / NHK and Tweets

ねらい

日本放送協会から提供されている「NHK総合テレビ 大震災発災直後から24時間の放送音声書き起こし」データに含まれる各発話が,ツイッター上でどのように拡散しているのかを調査します.

成果物

NHK総合テレビの放送内容とツイートの対応付け

ツイートの全データ(179,286,297ツイート)の中で,NHKの放送内容が情報源であると(高い確度で)推定される26,477ツイートと,その放送内容との対応付けを表すデータを作成しました. イメージとしては,以下のようにNHKの放送内容に対する反応と思われるツイート群を認識したデータになります. この対応付けデータは,Twitter Japan及び日本放送協会のデータ利用規約に同意された方に提供することが可能ですので,必要な方は岡崎 (okazaki at ecei dot tohoku dot ac dot jp) までご連絡下さい.

nhk.png

提供するデータのフォーマットは,以下の通りです.

(ステータスID)\t(ユーザID)\t(ツイート日時)\t(ツイート本文)
\t(類似度)\t(マッチした行番号と文番号)\t(放送日時)\t(放送内容)
...

Twitter Japanから提供されているデータの行に続けて,タブ文字から始まって対応付けられたNHKの放送内容が収録されています.データのファイルサイズは,約118MBです.

NHK総合テレビの放送内容の中で,ツイッター上で反響の大きかったもの

NHK総合テレビの放送内容の中で,ツイッター上でよく拡散されたものトップ10を求めてみました(データ提供:NHK,Twitter Japan). なお,この分析はコンピュータによる自動集計であるため,放送内容の影響度の測定としては,正確ではない恐れがありますので,注意してください.

順位スコア日時発話内容
16872.203/11 21:40:0003-5452-8800、03-5452-8800、050-3369-9680、050-3369-9680、番号はお間違えのないようお願いします。
21725.203/11 22:50:00高知県に大津波警報が追加されました。
3622.403/12 03:00:00050-3369-9680、050-3369-9680番、お間違えのないようにお願いします。
4583.703/12 03:00:00東京03-5452-8800、東京03-5452-8800、そしてもう1本あります。
5554.203/11 22:00:00政府は、福島第一原子力発電所について、原子力災害対策特別措置法に基づいて、原子力緊急事態を宣言したことを受けまして、先ほど午後9時23分に、半径3キロメートル以内にいる大熊町と双葉町の住民に対し、念のため避難するよう、また3キロから10キロの範囲では屋内に退避するよう指示しました。
6355.303/11 14:40:00緊急地震速報です。
7268.103/12 14:30:00東京大学の関村直人教授は、「燃料のごく一部が溶けて漏れ出たのだろうと思われるが、原子炉はすでに停止している上、冷されている状況だ。
8260.403/12 14:30:00ほとんどの核燃料は原子炉の中に納まっているので、住民には冷静な対応をお願いしたい」と話しています。
9236.503/12 14:10:00経済産業省の原子力安全・保安院によりますと、福島第一原子力発電所の敷地内の1号機の周辺で、核分裂によって発生するセシウムという放射性物質が検出されたことから、1号機で炉心にある核燃料の一部が溶け出たと見ていると発表しました。
10235.003/11 18:10:00帰宅するのではなく、職場や外出先の安全な場所で待機をするようお願いします。

1位,3位,4位はNHKの安否情報受付電話番号に関するもので,ツイッター上でも安否情報の収集に貢献しようという動きが見受けられました. 2位の大津波警報ですが,3月11日の22:50と時間が遅く,@NHK_PRさんの拡散力の高まりが反映されたものと考えられます. 5位,7~9位は福島第一原子力発電所の1号機付近セシウムが検出されたことに関連したツイートが拡散されています. 10位は,公共交通機関がストップしている中で,情報・食料・トイレ・水などで困惑し二次被害が起こる可能性を指摘して,帰宅にこだわることなく,安全な場所で待機するようにNHKが呼びかけたものがランクインしています.

分析手法

まず,NHKの放送内容を文毎に区切ります.隣り合う文を連結していったとき,200文字以内になる塊(セグメント)のすべてを,ツイートと対応付ける候補とします. 各ツイートと,放送内容の各セグメントの類似度を計算し,類似度が0.5以上のものを見つけ出します. このとき,類似度の計算には文字tri-gramを素性としたコサイン類似度を用いています. 放送内容とツイートの内容が似ていても,NHKの情報に基づいているかどうか保証がないため,ツイートが,

NHK, nhk, NHK, nhk, エヌエイチケー, 総合テレビ, 総合TV, 総合TV

を含んでいるものだけを採用しています.

謝辞

  • 東日本大震災ビッグデータワークショップの企画・運営をされている皆様に感謝いたします.
  • 貴重なデータを提供して頂いたTwitter Japan 株式会社に感謝いたします.
  • 同じく,貴重なデータを提供して頂いた日本放送協会に感謝いたします.
  • 分散並列処理にGrid & Cluster Shell (GXP)を用いました.
  • ツイートと発話内容の対応付けを高速に行うため,類似文字列検索ライブラリSimStringを用いました.

© Inui Laboratory 2010-2018 All rights reserved.