FrontPage / Project 311 / Full-text Search

ねらい

全ツイートに対する高速な全文検索を実現します.ツイート内に含まれる文字列だけでなく,ツイートされた日時を範囲指定した検索も行えます.

成果物

全文検索エンジン

非公開ですが,以下のスクリーンショットに示すような全文検索エンジンを実現しました.任意の単語を入力することによるAND検索,およびツイート日時を範囲で指定した検索が行えます.リツイート数やツイート日時による並べ替え,画像付きツイートのみの検索なども行えます.

search-demo.png

ツイート日時の範囲検索

ツイート日時を指定することにより,同じ単語で検索してもツイート内容の傾向が異なることが分かります.以下の例は,「コスモ石油」について検索したものですが,震災直後はその火災事故に関する情報が目立ちます.しかし,火災が沈静化した後は,給油状況に関する情報が目立っていることが分かります.

search-cosmo1.png

「コスモ石油」について,3/11 17:00~3/12 10:00の範囲で検索した結果.火災に関するツイートが多い.

search-cosmo2.png

「コスモ石油」について,3/17 14:00~3/17 22:30の範囲で検索した結果.給油状況に関するツイートが多い.

画像付きツイートの検索

震災当時,停電や通信網の破損により被災地からの情報発信は限られていました.被災地からのツイートを効率よく探す方法の一つとして,画像付きのツイートのみを検索できるようにしました.画像(写真)を見ることで,現地の方のツイートか,ニュースを見た方のツイートかを判別でき,現地の生の声を知ることができます.

search-tagajo.png

「多賀城市」について検索した結果.多賀城市は被災状況があまり報道されなかった地域であると言われており,ニュース画面は少なく,現地の方が撮影された写真を多く見つけることができます.

search-tsunami.png

「津波」について検索した結果から,現地の情報と思われるもののみを人手で選択した結果.津波についてはニュース画面と共にツイートされたものが多いのですが,現地の生の声も少なからず存在することが分かります.

いずれのツイートも,意外にリツイート数は少なく,被災地からの情報発信がうまく伝わっていなかったことがうかがえます.

検索エンジンの実現

全文検索エンジンには,Apache Solrを用いました.Solrは全文検索を簡単に実現できるだけでなく,複数のノードを用いた分散検索も実現可能です.現在は8ノード(Xeon X3470 2.93GHz 4コア,24GB RAM,HDD✕3 RAID0)で構成され,概ね1秒以内で検索できます.索引付けは8並列で2時間程度で完了します.

応用

トレンド分析と組み合わせるといった応用が考えられます.トレンド単語が多くツイートされていた時に,実際にどのようなツイートがあったかを簡単に検索することが可能になります.

写真は,現地の生の声を伝える重要な情報です.こういった情報に着目して,現地の状況をいち早く伝えられるような工夫を考えていく必要があります.

謝辞


© Inui Laboratory 2010-2018 All rights reserved.