Edge, Chrome, Safari, Firefox推奨
UniDicのロゴ コーパス開発センターのロゴ
UniDicとは? (2017年現在)

UniDicとは、国立国語研究所の規定した斉一(せいいつ)な言語単位(短単位)と、 階層的見出し構造に基づく電子化辞書の

① 設計方針

および、その実装としてのリレーショナルデータベース

② UniDicデータベース

と、そのデータベースからエクスポートされた短単位をエントリとする、形態素解析器MeCab用の解析用辞書

③ 解析用UniDic

の総称です。

本サイトでは 解析用UniDic を公開・配布しています。

解析用UniDicは短単位をMeCab辞書のエントリとしているため、 UniDicを使った形態素解析は「短単位(自動)解析」とも呼ばれます。

UniDicの概略
UniDicの目的
UniDicデータベースの目的

UniDicの第一の目的は、国語研で構築しているコーパスアノテーションを促進することです。

国語研所内にあるUniDicデータベースは、同じく所内のコーパスのデータベースと参照関係にあり、 完成したコーパスデータベース中の短単位は、

  • UniDicデータベースに登録されており、
  • UniDicデータベース中の一意のエントリを参照する(リンク付けられている)状態になっています。
UniDicDBとコーパスDBの関係

こうしたコーパスと辞書を統合したシステム運営の利点として、以下の2点が挙げられます。

  1. コーパスへの短単位情報アノテーションの際、作業は、 「コーパスに出現した各短単位がUniDicデータベースのどのエントリであるかを選択していけばいいだけ」なので、 コーパス中の異なる位置に出現した同一の短単位に対して、活用など、一部の情報を異なって付与してしまうミスを防ぎ、 コーパス中に不整合が生じる可能性を少なくできる。
  2. 現時点のUniDicデータベースに存在しない情報・属性(項目)が、新たにUniDicデータベースへ追加された場合でも、 データベース間のリンクでコーパスへの反映(新項目の追加)は瞬時に行える。

またコーパスデータベースとの参照関係の最大の利点は、UniDicデータベースの1エントリからコーパス中の膨大な用例を一度に引き出せる 用例索引の能力にあります。 下図に示すUniDicExplorerというUniDicデータベース用の操作ツールを使うと、 データベース中の短単位エントリを指定して用例列挙のボタンを押すだけで、 そのエントリに対応する用例を、コーパスデータベースから、 語彙素・語形・書字形の段階ごとに一覧して取得する事ができます。

UniDicExplolerでの用例検索

残念ながら現在、研究所外部のユーザに対して、 UniDicExplorerを使った所内コーパスデータベースへの直接アクセスサービスは提供していません。 しかし公開済みのコーパスならば、コーパス検索システム中納言を使うことで、 共起や連接の指定など、より柔軟かつ簡単な用例検索を行うことができます。

中納言での用例検索
解析用UniDicの目的

上述の通り、UniDicの第一の目的は国語研で構築するコーパスアノテーションを促進することです。 解析用UniDicも元々は日本語話し言葉コーパス(CSJ)の (i) 短単位自動アノテーションデータ(非コアデータ)を作成するために 構築されたのが始まりです。 現代日本語書き言葉均衡コーパス(BCCWJ)構築時からは 「解析用辞書を使った短単位自動解析の結果を人手修正していく」 という作業方針が採られるようになり、 現在では (ii)人手アノテーション作業のコスト削減ツールとしても利用されています。

本サイトで公開している解析用UniDicも、上記2つの用途 (i、ii)を意図しています。 下の参考文献「解析器用UniDicに関する論文」中に記載の解析性能も、 自動アノテーションで作ったコーパスの精度および、解析用UniDicのユーザが同様のコーパスを作ろうとしたときの 参考値(=どのくらい同じようなものが再現できるかの度合い)として掲載されています。

また短単位は、漏れの少ない 用例検索を重視した設計(単位の長さ、可能性に基づく品詞体系、細かい語義までは考慮しない字面主義) となっているため、自然言語処理分野の統語解析や意味解析に向いていません。

統語解析には、構文機能に着目し、文節からトップダウンに認定する長単位の使用を推奨しています。

反面、用例検索に向けた斉一な単位であるため、文脈の有無や、文脈の違いによらず、一貫した自動解析を実現でき、 検索エンジンのような情報検索システム上で有効性があるとの報告もあります[高橋+, 16]。

参考文献
UniDicの設計と実装全体に関係する論文
  • 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007).
  • 小木曽 智信, 中村 壮範:「『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用」, 自然言語処理, Vol.21, No.2, pp.301-332 (2014).
  • 小木曽 智信, 中村 壮範: 「『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装 改訂版」(JC-U-10-01) JC-U-10-01.pdf
UniDicデータベースに関する論文
  • 伝 康晴, 浅原 正幸: 「リレーショナル・データベースによる統合的言語資源管理環境」, 第1回『話し言葉の科学と工学』ワークショップ講演予稿集, pp.77-84 (2001).
  • 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007).
  • 小木曽 智信, 中村 壮範: 「『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用」, 自然言語処理、Vol.21, No.2, pp.301-332 (2014).
  • 小木曽 智信, 中村 壮範: 「『現代日本語書き言葉均衡コーパス』形態論情報データベースの設計と実装 改訂版」(JC-U-10-01) JC-U-10-01.pdf
UniDicデータベースからのエクスポートに関係する論文
  • 鴻野 知暁, 小木曽 智信: 見出し語の時代情報を付与した電子化辞書の構築, 言語処理学会第20回年次大会発表論文集, pp.209-212 (2014).
解析用UniDicに関係する論文
  • 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp. 101-123 (2007).
  • 伝 康晴, 中村 純平, 小木曽 智信, 小椋秀樹: 「語種情報を用いた同表記異音語の解消」, 言語処理学会第14回年次大会, pp.69-72 (2008).
  • 小木曽 智信, 小町 守, 松本 裕治: 「歴史的日本語資料を対象とした形態素解析」, 自然言語処理, Vol.20, No.5, pp.727-748 (2013).
UniDicを使った日本語研究のケーススタディ
  • 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp. 101-123 (2007).
情報検索への応用例
  • 高橋 文彦, 颯々野 学: 「情報検索のための単語分割一貫性の定量的評価」, 言語処理学会第22回年次大会(NLP2016), pp.949-952 (2016).