Koji Matsuda / 松田耕史

理化学研究所革新知能統合研究センター自然言語理解チームテクニカルスタッフ

東北大学大学院情報科学研究科乾研究室博士課程

研究内容

自然言語処理の研究をしています．計算機上の知識表現（記号的なもの，分散的なもの問わず），知識の自動獲得，よいスキーマデザイン，Factual Knowledge，質問応答システムなどに興味を持っています．

以前は地理空間上の実体を指し示す言語表現を実体に結びつけることで，テキスト情報を時間・空間上で整理する研究もしていました．

キーワード : 固有表現，エンティティリンキング，知識表現，知識獲得，質問応答システム

エンティティメンションに対する意味解析

エンティティリンキング

テキスト上の表現が指す地理空間上の実体の識別

テキスト情報の時間・空間上での俯瞰

Publications

Google Scholarのプロフィールもご覧ください．

Journal papers

鈴木正敏, 松田耕史, 大内啓樹, 鈴木潤, 乾健太郎. データ指向型アプローチによるクローズドブック質問応答. 自然言語処理. 28巻1号, March 2021. (forthcoming)
Diana Galvan-Sosa, Koji Matsuda, Naoaki Okazaki and Kentaro Inui. An Empirical Exploration of the Challenges in Temporal Relation Extraction from Clinical Text. Journal of Natural Language Processing, Vol.27 No.2, June 2020. (DOI: 10.5715/jnlp.27.383)
Masatoshi Suzuki, Koji Matsuda, Satoshi Sekine, Naoaki Okazaki and Kentaro Inui. A Joint Neural Model for Fine-Grained Named Entity Classification of Wikipedia Articles. IEICE Transactions on Information and Systems, Vol. E101-D, No.1, pp.73-81, January 2018. (DOI: 10.1587/transinf.2017SWP0005)
Shuangshuang Zhou, Naoaki Okazaki, Koji Matsuda, Ran Tian and Kentaro Inui. Supervised Approaches for Japanese Wikification. Journal of Information Processing Vol. 25 pp.341-350, April 2017. (DOI: 10.2197/ipsjjip.25.341)
Koji Matsuda, Akira Sasaki, Naoaki Okazaki and Kentato Inui. Geographical Entity Annotated Corpus of Japanese Microblogs. Journal of Information Processing Vol. 25, pp.121-130, January 2017. (DOI: 10.2197/ipsjjip.25.121)

International Conferences/Workshops

Satoshi Sekine, Kouta Nakayama, Maya Ando, Yu Usami, Masako Nomoto and Koji Matsuda. SHINRA2020-ML: Categorizing 30-language Wikipedia into fine-grained NE based on “Resource by Collaborative Contribution” scheme. In Proceedings of the 3rd conference on the Automated Knowledge Base Construction (AKBC 2021), 2021.
Satoshi Sekine, Masako Nomoto, Kouta Nakayama, Asuka Sumida, Koji Matsuda, Maya Ando. Overview of SHINRA2020-ML Task. The 15th NTCIR Conference. December 2020.
Diana Galvan-Sosa, Jun Suzuki, Kyosuke Nishida, Koji Matsuda and Kentaro Inui. Seeing the world through text: Evaluating image descriptions for commonsense reasoning in machine reading comprehension. The Second Workshop on Beyond Vision and LANguage: inTEgrating Real-world kNowledge (LANTERN 2020). December 2020.
Diana Galvan, Naoaki Okazaki, Koji Matsuda and Kentaro Inui. Investigating the Challenges of Temporal Relation Extraction from Clinical Text. In Proceedings of the Ninth International Workshop on Health Text Mining and Information Analysis (LOUHI 2018), pp.55-64, October 2018.
Koji Matsuda, Mizuki Sango, Naoaki Okazaki and Kentaro Inui. Monitoring Geographical Entities with Temporal Awareness in Tweets. 12 pages. 18th International Conference on Computational Linguistics and Intelligent Text Processing (CICLing 2017). April 2017.
Yusuke Hara, Koji Matsuda, Masao Kuwahara, Naoaki Okazaki and Kentaro Inui. Traffic State Estimation and Cause and Effect Understanding by Probe Data and Social Media Data. In Proceedings of the 21st International Conference of Hong Kong Society for Transportation Studies, Smart Transportation, December 2016.
Shuangshuang Zhou, Koji Matsuda, Ran Tian, Naoaki Okazaki and Kentaro Inui. A Pipeline Japanese Entity Linking System with Embedding Features. 10 pages. The 30th Pacific Asia Conference on Language, Information and Computation (PACLIC 30). Oct 2016.
Masatoshi Suzuki, Koji Matsuda, Satoshi Sekine, Naoaki Okazaki and Kentaro Inui, Neural Joint Learning for Classifying Wikipedia Articles into Fine-grained Named Entity Types. 10 pages. The 30th Pacific Asia Conference on Language, Information and Computation (PACLIC 30). Oct 2016.
Masatoshi Suzuki, Koji Matuda, Satoshi Sekine, Naoaki Okazaki, and Kentaro Inui, Multi-label Classification of Wikipedia Articles into Fine-grained Named Entity Types. 4 pages. 2016 IEEE/WIC/ACM International Conference on Web Intelligence (WI'16). Oct 2016.
Davaajav Jargalsaikhan, Naoaki Okazaki, Koji Matsuda and Kentaro Inui. Building a Corpus for Japanese Wikification with Fine-Grained Entity Classes. ACL 2016 Student Research Workshop. pp 138–144. Aug 2016.
Koji Matsuda, Akira Sasaki, Naoaki Okazaki and Kentaro Inui. Annotating Geographical Entities on Microblog Text. The 9th Linguistic Annotation Workshop (LAW IX 2015). June 2015.

Domestic Conferences/Workshops

関根聡, 中山功太, 野本昌子, 安藤まや, 隅田飛鳥, 松田耕史. 拡張固有表現に分類された31言語のWikipedia知識ベース. 言語処理学会第27回全国大会. March 2022. 委員特別賞受賞
阿部香央莉, 北山晃太郎, 松田耕史, 吉川将司, 乾健太郎. 大規模言語モデルの語彙的関係知識推定における日英間の比較調査. 情報処理学会第249回自然言語処理研究会, July 2021.
鈴木正敏, 松田耕史, 大内啓樹, 鈴木潤, 乾健太郎. オープンドメイン質問応答における解答可能性判別の役割. 言語処理学会第27回全国大会. March 2021. 委員特別賞受賞
関根聡, 野本昌子, 中山功太, 隅田飛鳥, 松田耕史, 安藤まや. SHINRA2020-ML:30言語のWikipediaページの分類. 言語処理学会第27回全国大会. March 2021.
阿部香央莉, 松田耕史, 吉川将司, 乾健太郎. オンラインコミュニティにおける単語頻度の通時的変化を利用した新語リストの獲得. 言語処理学会第27回全国大会. March 2021.
Diana Galvan-Sosa, 西田京介, 松田耕史, 鈴木潤, 乾健太郎. テキストを通して世界を見る:機械読解における常識的推論のための画像説明文の評価. 言語処理学会第26回全国大会. March 2020. 優秀賞(396発表中の8件) 受賞
鈴木正敏, 鈴木潤, 松田耕史, 西田京介, 鈴木潤, 井之上直也. JAQKET: クイズを題材にした日本語QAデータセットの構築. 言語処理学会第26回全国大会. March 2020. データセット / AI王〜クイズAI日本一決定戦〜参加者大募集中！
鈴木正敏, 松田耕史, 大内啓樹, 鈴木潤, 乾健太郎. クイズ解答タスクにおける大規模ラベルなしコーパスの利用: 言語モデルとデータ拡張. 情報処理学会第241回自然言語処理研究会, 9 pages, August 2019. 優秀研究賞(28発表中の3件) 受賞
松田耕史, 鈴木正敏, 乾健太郎. Wikidata からの遠距離教師あり学習に基づく大規模関係知識獲得. 言語処理学会第25回年次大会(NLP2019). March 2019. 最優秀ポスター賞 (53発表中の1件) 受賞
佐藤拓海, 大内啓樹, 松田耕史, 鈴木正敏, 鈴木潤, 乾健太郎. 強化学習によるプログラム生成のためのプログラム系列分析. 言語処理学会第25回年次大会(NLP2019). March 2019.
阿部香央莉, 佐藤志貴, 佐藤拓海, 藤井諒, 松田耕史, 鈴木正敏, 山口健史, 赤間怜奈, 大内啓樹, 鈴木潤, 乾健太郎. Zunkobot: 複数の知識モジュールを統合した雑談対話システム. 対話システムライブコンペティション. 第9回対話システムシンポジウム. November 2018. 優秀賞受賞
関根聡,安藤まや,小林暁雄,松田耕史,鈴木正敏,乾健太郎. 「拡張固有表表現+Wikipedia」データ(2015年11月版Wikipedia 分類作業完成版). 言語処理学会第24回年次大会(NLP2018). March 2018.
伊藤拓海, 山口健史, 田然, 松田耕史, 岡崎直観, 乾健太郎. 自治体FAQの比較マイニング. 言語処理学会第24回年次大会(NLP2018). March 2018.
鈴木正敏, 松田耕史, 岡崎直観, 乾健太郎. 読解による解答可能性を付与した質問応答データセットの構築.言語処理学会第24回年次大会(NLP2018). March 2018. 筆頭著者の鈴木さんが若手奨励賞を受賞
鈴木正敏, 松田耕史, 岡崎直観, 乾健太郎. Wikipedia を知識源に用いた文書検索と読解によるクイズ解答システム. NLP若手の会 (YANS) 第12回シンポジウム, September 2017.
中村拓, 田然, 松田耕史, 乾健太郎. 分散表現から感情極性は予測できるか？. NLP若手の会 (YANS) 第12回シンポジウム, September 2017.
鶴田崇仁, 松田耕史, 乾健太郎. 大規模Web小説コーパスにおける発話と発話文脈の関係分析. NLP若手の会 (YANS) 第12回シンポジウム, September 2017.
白井穂乃, 田然, 松田耕史, 乾健太郎. コノテーションに基づいた名詞の感情極性の予測. NLP若手の会 (YANS) 第12回シンポジウム, September 2017.
松田耕史, 岡崎直観, 乾健太郎. クラウドソーシングを系に組み込んだテキストからの関係知識抽出. NLP若手の会 (YANS) 第12回シンポジウム, September 2017.
松田耕史, 岡崎直観, 乾健太郎. 日本語 wikificationツールキット: jawikify. 言語処理学会第23回年次大会(NLP2017), March 2017.
栗原理聡, 水本智也, 松田耕史. 地理情報に対する実体験に焦点を当てた意見抽出に向けて第11回NLP若手の会シンポジウム, September 2016.
鶴田崇仁, 松田耕史, 岡崎直観, 乾健太郎. seq2seqモデルに基づく略語の自動生成第11回NLP若手の会シンポジウム, September 2016.
珊瑚彩主紀, 松田耕史, 岡崎直観, 乾健太郎. ツイート中の地理情報に対する時間的極性の自動推定. 4 pages, 人工知能学会全国大会（第30回）, June 2016.
鈴木正敏, 松田耕史, 関根聡, 岡崎直観, 乾健太郎. Wikipedia記事に対する拡張固有表現ラベルの多重付与. pp.797-800, 言語処理学会第22回年次大会, March 2016.
Davaajav Jargalsaikhan, 岡崎直観, 松田耕史, 乾健太郎. 日本語Wikificationコーパスの構築に向けて. pp.793-796, 言語処理学会第22回年次大会, March 2016.
関根聡, 安藤まや, 松田耕史, 鈴木正敏, 乾健太郎. 「拡張固有表表現+Wikipedia」データ. pp.41-44, 言語処理学会第22回年次大会, March 2016.
鈴木正敏, 松田耕史, 関根聡, 岡崎直観, 乾健太郎. Wikipediaエントリの拡張固有表現階層への自動分類. 第10回NLP若手の会シンポジウム, September 2015.
栗原理聡, 佐々木彬, 松田耕史, 岡崎直観, 乾健太郎. Twitterを利用した地域毎の要望抽出. 人工知能学会全国大会, June 2015
原祐輔, 松田耕史, 川崎洋輔, 三谷卓摩, 桑原雅夫. ProbeとTweetを用いたマルチリソースによる潜在交通状態推定. 第51回土木計画学研究発表会（春大会）June 2015.
松田耕史, 佐々木彬, 岡崎直観, 乾健太郎. 場所参照表現タグ付きコーパスの構築と評価. 情報処理学会研究報告自然言語処理（NL）, 2015-NL-220(12), pp.1-10, January 2015.
松田耕史, 高村大也, 奥村学. 知識ベースに基づいた語義曖昧性解消における教師データの活用. 人工知能学会全国大会論文集 26, 1-4, 2012
松田耕史, 山本悠二, 酒井浩之, 増山　繁. Weblog内のリンクに対する感情推定の試み　～ Webコミュニティ発見法改善の基礎として～ . 言語理解とコミュニケーション研究会（NLC）. NLC2005-116. pp.13-18

Casual Talks

松田耕史. 論文紹介 : Neural Relation Extraction for Knowledge Base Enrichment (ACL2019) . 第10回最先端NLP勉強会. 2019. Slides (speakerdeck)
松田耕史. 論文紹介 : Training Classifiers with Natural Language Explanations (ACL2018) . 第9回最先端NLP勉強会. 2018. Slides (speakerdeck)
松田耕史. 論文紹介 : Reading Wikipedia to Answer Open-Domain Questions (ACL2017) & & Heterogeneous Supervision for Relation Extraction: A Representation Learning Approach (EMNLP 2017). 第9回最先端NLP勉強会. 2017 Slides (slideshare)
松田耕史. KB + Text => Great KB な論文を多読してみた. 乾・岡崎研勉強会. 2017. Slides (slideshare)
松田耕史. 「今日から使い切る」ための GNU Parallelによる並列処理入門. 乾・岡崎研勉強会. 2017. Slides (slideshare) (>15000 views)
松田耕史. 論文紹介 : Large-Scale Information Extraction from Textual Definitions (TACL 2015). 第8回最先端NLP勉強会. 2016. Slides (slideshare)
松田耕史. 知識を紡ぐための言語処理と，そのための言語資源. NEologd Casual Talks. April 2016. Slides (slideshare)
松田耕史. 論文紹介 : Compositional Semantic Parsing on Semi-Structured Tables (ACL 2015). 第7回最先端NLP勉強会. 2015. Slides
松田耕史. 論文紹介 : Entity Linking meets Word Sense Disambiguation: a Unified Approach(TACL 2014). 第６回最先端NLP勉強会. 2014. Slides(slideshare)
松田耕史. いまさら聞けない “モデル” の話 . DSIRNLP#5. 2014. Slides (slideshare) Video (youtube) 西川賞(?)受賞
松田耕史. 論文紹介 : Align, Disambiguate and Walk: A Unified Approach for Measuring Semantic Similarity(ACL 2013). 第5回最先端NLP勉強会. 2013.Slides(slideshare)
松田耕史. 論文紹介 : Joint Modeling of a Matrix with Associated Text via Latent Binary Features (NIPS 2012). すずかけ論文読み会. Augsut 2013. Slides (slideshare)
松田耕史. 論文紹介 : Vanishing Component Analysis(ICML 2013). すずかけ論文読み会#4. 2013. Slides(slideshare) (>20000 views)
松田耕史. 論文紹介 : Vanishing Component Analysis(ICML 2013). ICML2013読み会. 2013.Slides(slideshare)
松田耕史. 論文紹介 : Practical recommendations for gradient-based training of deep architectures. すずかけ論文読み会#6. 2013.Slides (slideshare) (>40000 views) (内容は古いので気をつけてください)
松田耕史. 論文紹介 : A Machine Learning Framework for Programming by Example (ICML 2013). すずかけ論文読み会. June 2013. Slides (slideshare)
松田耕史. 論文紹介 : Information-Theoretic Metric Learning (ICML 2007). すずかけ論文読み会. April 2013. Slides (slideshare) (>15000 views)
松田耕史. 論文紹介 : Unified Expectation Maximization (NAACL 2012). すずかけ論文読み会. March 2013. Slides (slideshare)
松田耕史. 気軽にはじめる Web アプリケーションプログラミング. 第38回情報科学若手の会. 2005. 開催記録

その他・招待講演/パネル参加など

鈴木　潤, 松田耕史, 鈴木正敏, 加藤拓真, 宮脇峻平, 西田京介. ライブコンペティション：「AI王～クイズAI日本一決定戦～」. 自然言語処理 2021 年 9 月（学会記事). (招待有り)
松田耕史. エンティティリンキング技術に基づいた地理情報と言語情報の融合解析. 情報処理学会第79回全国大会特別企画「情報力」で街を変える〜ビッグデータ利活用技術開発とその社会実装〜. March 2017. (研究概要紹介とパネルディスカッション登壇) archive
松田耕史. 統計的手法による Web 検索補助システム Seezle の開発. 平成15年度未踏開発ソフトウェア創造事業. 成果報告書. 2003. archive

公開データセット

JAQKET:クイズを題材にした日本語QAデータセット
解答可能性付き読解データセット(鈴木正敏さんとの共同研究)
日本語 Temporal Awareness コーパス (珊瑚彩主紀さんとの共同研究)
日本語 Wikification コーパス (Jargalsaikhan Davaajavさんとの共同研究)
日本語 Wikipedia エンティティベクトル (鈴木正敏さんとの共同研究)
場所参照表現タグ付きコーパス (佐々木彬さんとの共同研究)

Awards

委員特別賞. 言語処理学会第28回全国大会(NLP2022). March 2022.
委員特別賞. 言語処理学会第27回全国大会(NLP2021). March 2021.
優秀賞. 言語処理学会第26回全国大会(NLP2020). March 2020. (396発表中の8件)
優秀研究賞. 情報処理学会第241回自然言語処理研究会. August 2019. (28発表中の3件)
第45回リバネス研究費日本の研究.com賞採択. 2019.
最優秀ポスター賞. 言語処理学会第25回年次大会(NLP2019). March 2019. (53発表中の1件)
優秀賞. 第9回対話システムシンポジウム. November 2018.
宮城工業高等専門学校学術賞(学長表彰). March 2003.
未踏ソフトウェア創造事業採択 (当時史上最年少採択). 2002. 開発概要

Academic Activities

Reviewer: 情報処理学会ジャーナル(2007, 2018, 2020), 電子情報通信学会和文論文誌Ｄ(2016), AAAI(2017) IJCAI(2016), IEEE Access (2019, 2021)
実行委員:
1. AI王〜クイズAI日本一決定戦〜 (2020)
2. 森羅 SHINRA Wikipedia 構造化プロジェクト (2018, 2019, 2020-ML, 2020-JP)
幹事: 情報科学若手の会(2006, 2007)

Other Interests

Hiking: I love Mt. Adatara and Mt. Hayachine.
Listening to music: sleepy.ab, syrup16g, Sigur Rós, Fishmans, サニーデイ・サービス, cero, toe, ゆらゆら帝国, Yogee New Waves, 青葉市子, the band apart etc...
Driving: Peugeot 308 (first generation). In past, I owned Peugeot 306.
Apple Products: I’m using MacBook Pro and iPhone.
Reading:
- Contemporary one: Toshiyuki Horie, Paul Auster.
- Legendary one: TBA.
Learning philosophy: Now I am into David Benatar's theory of meaning (or meaninglessness) of life. Especially, I'm attracted to the theory of asymmetry between pain and pleasure. (Note: I don't entirely agree with that theory, but it is very intersting.)

Contact

〒980-8579
宮城県仙台市青葉区荒巻字青葉6-6-05
東北大学工学研究科 電子情報システム・応物系1号館6階
乾研究室

Communication Science Laboratory
6-6-05 Aramaki Aza Aoba, Aobaku, Sendai, Miyagi 980-8579, Japan

Mail: matsuda at ecei.tohoku.ac.jp
Twitter: @conditional

Koji Matsuda / 松田 耕史