wiki:リソースプール

リソースプール

本タスクを実施するにあたって,有用なリソースやツールについてリストアップしています.

解析ツール

言語解析を行うためのツールについて,現在配布されているものについてリストアップしています.これらのうち,一部の解析結果については配布していますので,ツールのインストールが難しい方でも最新の解析結果を利用することができます.

解析内容 ツール名 配布元 特徴
形態素解析 MeCab URL パラメータの推定にCRFを用いた形態素解析器で, ChaSenよりも性能が向上.
形態素解析 Juman URL 文法の定義,単語間の接続関係の定義などが容易に変更可能.7.0からWebテキストに対して頑健な解析が可能.
形態素解析 KyTea URL 部分的にアノテーションされたデータを利用してモデルを学習することが可能.
形態素解析辞書 UniDic URL MeCabの辞書として利用可能な,短単位という揺れのない単位で設計された形態素解析辞書.
係り受け解析 CaboCha URL Support Vector Machinesに基づく日本語係り受け解析器.MeCabの出力に対して解析.
構文・格解析 KNP URL JUMANの解析結果を入力として,文節および基本句間の係り受け解析,格関係を出力.並列構造の解析も行う.
係り受け解析 EDA URL 部分にアノテーションされたデータを利用してモデルを学習することが可能.交差する係り受けが扱えるほか,単語単位での係り受けも解析可能.
述語項構造解析 SynCha Ver 0.1 Ver 0.2 CaboChaの解析結果を入力として,述語項関係を解析.ガ格,ヲ格,ニ格を対象.
数量表現・時間表現の規格化 normalizeNumexp URL 文中に含まれる数量表現・時間表現を高速かつ正確に認識,規格化するライブラリ.MeCabの解析結果に対して,数量表現にBIタグを付与し,規格化された表現を付加.

形態素解析から構文解析までは,推奨される組み合わせがあり,以下の通りです.これら以外の組み合わせも可能ですが,フォーマットの変換などが必要になります.

  1. MeCab → CaboCha → SynCha
  2. Juman → KNP
  3. KyTea → EDA

その他のツール

含意関係認識器を構築するにあたり,機械学習による分類器やデータベースなど,あると便利なツールを紹介します.導入難易度の目安は,A:解凍するだけで動くくらい簡単,B:configure + makeの操作は必要,C:Linuxに少し慣れていないと難しい,です.これらを駆使して,独自性と分類性能の両方を高めていきましょう.

用途 ツール名 配布元 開発言語 特徴 導入難易度
データベース KyotoCabinet C++ Key-Value Store(KVS)形式のデータベースを簡単に構築できる.KyotoTycoonを使うことで,データベースサーバを構築することも可能. C
データベース MongoDB Java リレーショナルデータベースをKVS並に簡単に構築できる.分散環境も容易に構築できるスケーラブルな設計.インタラクティブシェルや各言語のライブラリが揃っている他,索引付けすることで全文検索も可能. A
類似文書検索 SimString C++ N-gramコサイン類似度に基づいて類似文書を高速に検索できる. B
言語リソース利用支援 WordNet::Similarity Java WordNetの階層構造を利用して,単語間の関連度を測ることができる.オリジナルは,で,リンク先は日本語WordNetに対応させた派生版. A
言語リソース利用支援 Wikipedia::Redirect Java Wikipediaのリダイレクト情報を利用して,同義語を自動獲得する. A
学習器 liblinear C++ 線形分類を極めて高速に行える.SVM-lightとほぼ同じ形式で学習データを構築できる. B
学習器 Classiass C++ 一般的には素性ID(数字)に置き換えなければいけない素性を,文字列のまま入れられる他,構築されたモデルも文字列で素性が書かれており,モデルの分析に便利な分類器.学習アルゴリズムは代表的なものが一通り揃っている. B
学習器 SVM-light C 同じ作者が公開しているSVM-structなどを使うことで,多値分類のSVMが利用できる.カーネルを定義することも可能.Perl用のライブラリのみ存在. A
学習器 tinySVM C++ 各種言語へのライブラリが充実しているSVM. B
学習器 libSVM C++ liblinearの作者が構築した,高速に学習可能なSVM. B
学習器 CRF Suite C++ 非常に高速なCRF(Conditional Random Field). B
学習器 CRF++ C++ B
学習器 weka Java 決定木,SVMなどが利用可能な,JAVAで書かれたライブラリ.扱いやすいGUIが用意されており,Windows環境でも容易に動作する. A
学習器 mallet Java ?
全文検索エンジン Lucene/Solr Java 高速な全文検索を容易に実現できる.Sen(Java実装の形態素解析器)による分かち書き後の索引付けも可能. A

言語リソース

含意関係認識では,表層の異なる類似単語を認識することが重要です.また,矛盾関係を認識するためには,述語の反義関係や,評価極性の違いを認識することが重要です.それらを実現するために,人手や自動的に整備された言語リソースが公開されています.

言語 種別 名称 提供 説明 フリー?
JA 評価データ Textual Entailment 評価データ 京都大学 評価データは約2700セットからなり、それぞれに4値の推論判定を付与しています。また、それぞれの評価セットを、包含、語彙(体言)、語彙(用言)、構文、推論の5つのカテゴリに分類しています。
JA リソース 日本語WordNet NICT Princeton WordNet 3.0を日本語に翻訳したデータベース.バージョン1.0には,56,741概念(synsets)と92.241単語が含まれています. 検索サイトとAPIも公開されています.
JA リソース 京都大学格フレーム 京都大学 ウェブテキストから自動的に構築した格フレーム辞書です. 検索ツール
JA リソース 京都大学名詞格フレーム 京都大学 ウェブテキストから自動的に構築した名詞格フレーム辞書です.名詞格フレームとは、名詞の意味を解釈する際に必須となる要素を整理したものです.たとえば、「皇帝」という単語に対しては、「国」が必要である、という情報が収録されています.
JA リソース 単語感情極性対応表 東京工業大学 -1から+1までで評価極性が重み付けされた単語リストです.
JA リソース EDR電子化辞書 NICT コンピュータによる先進的な言語処理のために開発され、単語辞書などのいくつかの大規模な個別辞書から構成されます。 ×
JA, CS, CT リソース Wikipedia Free encyclopedia.
JA ツール Wikipediaから上位下位概念を抽出するツール NICT Wikipediaから90%以上の精度で抽出された600万ペアの上位下位概念を抽出します.
JA リソース 日本語語彙大系 NTT It contains 300,000 Japanese words marked with patr-of-speech and semantic classes, originally developed for the ALT-J/E Japanese-to-English machine translation system by NTT ×
JA リソース 分類語彙表 国立国語研究所 語を意味によって分類・整理したシソーラス(類義語集).レコード総数は101,070件. ×
JA リソース 動詞含意関係データベース ALAGIN Large-scale Japanese verb phrase pairs consisting of 52,689 positive examples (pairs entailing) and 68,819 negative examples (pairs not entailing). This resource is available for ALAGIN members only (a member needs to be a resident of Japan). ×
CS リソース 知网(HowNet) Dong Zhendong & Dong Qiang Static demo available. Must submit an agreement form to download and use it. Yes (conditional)
CS リソース 同义词词林(TongYiCi CiLin) 梅家驹,竺一鸣,高蕴琦等编. 上海辞书出版社. 1983. Thesaurus of synonyms and antonyms. ?
CS リソース 哈工大《同义词词林》共享版的若干改进 哈工大 Improved version of TongYiCi CiLin. Yes
CT リソース BOW Academia Sinica 本資料庫以英文WordNet架構為基礎,並以以台灣地區的語言使用為經驗基礎。 ?

JA: Japanese, CS: Simplified Chinese, CT: Traditional Chinese

Other resources to be added to the table soon: OpenMWE for Japanese, IPAL dictionary, 動詞項構造シソーラス, 基本語データベース:語義別単語親密度, つつじ:日本語機能表現辞書, and some Chinese data listed in CNLP Platform

文脈類似語データベース

100万語の名詞に対して,約1億ページのWeb文書上での文脈が類似している名詞を類似度とともに最大500個列挙されたデータベース.人手で整備されていないため,誤りも多く含みますが,多様な単語がカバーされているのが強みです.単語間の関係は付与されておらず,文脈が類似した矛盾の関係にある単語も含まれているのに注意です.

元の名詞(100万語) 上位500個までの類似単語(数字は類似度)
「チャイコフスキー」の文脈類似語(有名作曲家が上位に集まっている) ブラームス (-0.152) シューマン (-0.163) メンデルスゾーン (-0.166) ショスタコーヴィチ(-0.178) シベリウス (-0.18) ハイドン (-0.181) ヘンデル (-0.181) ラヴェル (-0.182) シューベルト (-0.187) ベートーヴェン (-0.19) ドヴォルザーク (-0.192) ラフマニノフ (-0.193) バルトーク (-0.198) ….
「ストーンズ」の文脈類似語(懐かしのバンドなどが上位に集まっている) YMO (-0.215) メタリカ (-0.223) ビートルズ (-0.236) ローリング・ストーンズ (-0.245) エアロスミス (-0.268) ツェッペリン (-0.277) Beatles (-0.284) ローリングストーンズ (-0.287) QUEEN (-0.292) ベンチャーズ (-0.294) ビ ーチ・ボーイズ (-0.295) ピンク・フロイド (-0.297) レッド・ツェッペリン (-0.301) ラモーンズ (-0.301) ディープ・パープル (-0.301) ニール・ヤング (-0.305) ザ・フー (-0.306) ….

配布元: ALAGIN 資源の詳細

動詞含意関係データベース

含意関係が成立している動詞のペア(正例52,689ペア,負例68,819ペア)が列挙されたデータベース.自動的に獲得した動詞ペアに対して,人手で修正されています.形態素単位で区切られていないので,事前に解析すると良いでしょう.

含意する動詞 含意される動詞
チンする 加熱する
デトックスする 解毒する
銀ブラする うろつく
アポトーシスする 死ぬ
壊れる イカれる
驚く ビックリする
まどろむ ウトウトする
先発復帰する スタメン出場する
あざ笑う 笑う
酔っぱらう 飲む
借りる 貸す

含意関係にある動詞ペアの内訳は以下の通りです.なお,実際のデータ中には#で始まるコメント行もあり,以下の数字はそれを取り除いた数です.

含意関係の種類 ペア数 動詞1異なり数 動詞2異なり数 サンプル
含意が成り立つ類義/上位下位関係 33,802 18,128 7,650 挑戦する → チャレンジする
文字列上包含関係にあり、含意が成り立つ類義/上位下位関係 15,599 15,367 2,440 あざ笑う → 笑う
前提関係 2,846 2,227 711 酔っぱらう → 飲む
作用反作用関係 442 336 328 借りる → 貸す
合計 53,689 36,058 8.771 -

本データベースには,負例と呼ばれる,含意関係にない動詞ペアも含まれています.含意関係にある動詞ペアを正例,こちらを負例として機械学習させることで,2つの動詞が含意関係にあるかを分類する学習器を構築することも可能です.

種類 ペア数 動詞1異なり数 動詞2異なり数 サンプル
含意、反義、予測関係ではない関連語 68,306 14,168 7,066 通勤する – 走る
文字列上包含関係にあるが、含意、反義、予測関係ではない関連語 294 290 101 冴渡る – 渡る
反義関係 51 46 42 閉める ↔ 開ける
予測関係 168 154 121 紅葉する – 落葉する

配布元: ALAGIN 資源の詳細

負担・トラブル表現リスト

災害や病、障壁や規制など、人間の活動に負荷を与えたり、マイナス効果をもたらしたりする事物に関する表現(約2万)が収集されたものです. 評価極性のネガティブとは働きが異なる部分がありますが,2単語間の意味的関係を同定するのに役立ちます.

負担・トラブル表現 分類
風邪
入園制限 規制・制限
ハム音 異音・雑音・騒音
カルテ改ざん 不正行為・違反
ガルバニック腐食 腐食
ハモグリバエ 有害生物-虫
PCB漏洩事故 事故

配布元: ALAGIN 資源の詳細

上位語階層データ

Wikipediaからの上位下位関係抽出ツールによって得られた上位語,約69,000名詞句を階層化して,その指示対象が十分に特定されるかどうかがタグ付けされたものです.不適切な上位語が取り除かれており,大変有用なリソースです.

<type=G>トンネル</>, <type=G>道路トンネル</>, <type=G>水底道路トンネル</>
<type=D>台</>, <type=G>天文台</>, <type=G>公開天文台</>
<type=D>ボール</>, <type=G>バレーボール</>, <type=G>イタリアのバレーボール</>

右の単語ほど上位の単語です.type=G,L,Dが,上位語としての適切さを表しています.

配布元: ALAGIN 資源の詳細

単語共起頻度データベース

約1億のウェブページについて,2つの単語が共起する回数を計算,各単語について3種類の共起スコア(共起頻度,Dice計数,ディスクカウンティング相互情報量)の高い順に最大100単語列挙されたものです.

「海外旅行」のDice係数の上位5語
国内旅行 0.370944
格安航空券 0.164571
ツアー 0.156045
航空券 0.150201
旅行 0.145224
「クリスマス」のDice係数の上位5語
お正月 0.172339
誕生日 0.119606
サンタ 0.113987
0.112612
年末 0.110775

配布元: ALAGIN 資源の詳細

日本語パターン言い換えデータベース

「AがBの原因となる」のように,文内で任意の名詞AとBを結ぶ表現パターンの言い換えデータベースです.パターンの検索・類似度計算スクリプトも 提供されています.

単語単位ではない言い換え表現として,有用な資源です.検索ツールにAとBを含むパターンを入力することで,以下のように類似パターンを高速に検索することができます.2列目の数字は類似度を表しています.

「AはBが豊富です」というパターンの言い換え候補(上位5個)
AはBが豊富 0.0549719888
AにはBが豊富に含まれています 0.0382925298
AはBも豊富です 0.0377786173
AはBを多く含む 0.0336538462
AはBも豊富 0.0331325301
「AはBを防ぐ」というパターンの言い換え候補(上位5個)
AがBを防ぐ 0.0224161276
AはBを予防する 0.0186121788
AでBを防ぐ 0.0175963197
Bを防ぐA 0.0175141447
AはBを防止する 0.0132786565

配布元: ALAGIN 資源の詳細

日本語異表記対データベース

日本語の語句レベルで編集距離が近い異表記対(表記揺れの対)の正例と負例が集められたものです. 編集距離が1のものとして,正例が48,067事例,負例が2,758事例,判断の難しい事例(準異表記対)が10,730事例含まれています.Version1.1では,自動獲得された100万事例が含まれています.

いずれのサブタスクにおいても,表記揺れは含まれていますので,本データを使ったり,同様の手法を用いることで揺れを吸収することが有効と考えられます.

  • 第 < 一 | 1 > 週目 → 第一週目 - 第1週目
  • Flash  < P | p > layer → FlashPlayer - Flashplayer
  • ゴミ置 < き > 場 → ゴミ置場 - ゴミ置き場
  • ギタープレ < ー | イ > → ギタープレイ - ギタープレー

配布元: ALAGIN 資源の詳細

日本語係り受けデータベース

基本的意味関係の事例ベース

Textual Entailment 評価データ

約2700文対に対して,4値の推論判定(

評価データは約2700文対からなり、包含、語彙(体言)、語彙(用言)、構文、推論の5つのカテゴリに分類され,さらに下位カテゴリに分類されています.

含意関係の学習データとして使えるほか,言語現象の分析にも有用であると考えられます.

15 語彙(体言):下位→上位 ◎ あの人は呼吸器専門医だ。 あの人は医者だ。

日本語WordNet

Princeton WordNet 3.0を日本語に翻訳したデータベース.バージョン1.0には,56,741概念(synsets)と92.241単語が含まれています. 検索サイトとAPIも公開されています.

京都大学格フレーム

ウェブテキストから自動的に構築した格フレーム辞書です. 検索ツール

京都大学名詞格フレーム

単語感情極性対応表

-1から+1までで評価極性が重み付けされた単語リストです.

日本語評価極性辞書

EDR電子化辞書

コンピュータによる先進的な言語処理のために開発され、単語辞書などのいくつかの大規模な個別辞書から構成されます。

Wikipedia

Wikipedia上位下位概念抽出ツール

Wikipediaから90%以上の精度で抽出された600万ペアの上位下位概念を抽出します.

日本語語彙体系

分類語彙表

語を意味によって分類・整理したシソーラス(類義語集).レコード総数は101,070件.

国立国語研究所

OpenMWE for Japanese