Edge, Chrome, Safari, Firefox推奨
UniDicのロゴ コーパス開発センターのロゴ

Q 解析用UniDicを使ったMeCabの出力結果の見方がよくわかりません。
  どの列に何の情報が入っているのでしょうか?

現代書き言葉UniDicと現代話し言葉UniDicではVer.2.2.0以降、 MeCabの-Overboseオプションを使うことで、 出力結果のフィールド前部に列名を併記することができます。

ダウンロードした解析用UniDicのフォルダの中にある「dicrc」というファイルをメモ帳などのテキストエディタで開いてみてください。 そこに、「node-format」「unk-format」という行がセミコロン「;」でコメントアウトされずに記述してあれば、 そこがMeCabの出力列を設定している箇所です。

node-format = %m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
unk-format = %m\t%m\t%m\t%m\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n

イコール(=)の右側が出力列のテンプレートで、f[]内の数字に対応する列名が下のようにファイル上部に書かれています(書いてない場合もあります)。 なので、2つを照らし合わせることで、MeCab出力列の名前を知ることができます。 (-Okeyオプションを使っている場合は、適宜対応する「node-format-key」「unk-format-key」の行を見てください)

また、上記フォーマットの詳細はMeCabの公式ページを参照してください。

; List of features
; f[0]:  pos1
; f[1]:  pos2
; f[2]:  pos3
; f[3]:  pos4
; f[4]:  cType
; f[5]:  cForm
; f[6]:  lForm
; f[7]:  lemma
; f[8]:  orth
; f[9]:  pron
; f[10]: orthBase
; f[11]: pronBase
; f[12]: goshu
; f[13]: iType
; f[14]: iForm
; f[15]: fType
; f[16]: fForm

また、「node-format」「unk-format」の行がないか、コメントアウトされている場合、「rewrite.def」というファイルの上部に書かれている列名の順番で出力されています。

# node:
# $1: pos1
# $2: pos2
# $3: pos3
# $4: pos4
# $5: cType
# $6: cForm
# $7: lForm
# $8: lemma
# $9: orth
# $10: pron
# $11: orthBase
# $12: pronBase
# $13: goshu
# $14: iType
# $15: iForm
# $16: fType
# $17: fForm
# unk:
# $1: pos1
# $2: pos2
# $3: pos3
# $4: pos4
# $5: cType
# $6: cForm

もしそれでもわからない時は、「こおりつけ!」という文字列を解析してみてください。

こおりつけ!
こおりつけ    動詞,一般,*,*,五段-カ行,命令形,コオリツク,凍り付く,こおりつけ,コーリツケ,コオリツケ,和,こおりつく,コーリツク,コオリツク,コオリツク,*,*,*,*,*,*,4,C1,*
!    補助記号,句点,*,*,*,*,,!,!,,,記号,!,,,,*,*,*,*,*,*,*,*,*
EOS

「動詞」から始まる4列は品詞大分類~細分類です。 また、動詞は活用するので「五段-カ行」という活用型、「命令形」という活用形が続いていることがわかります。 次の「コオリツク,凍り付く」は「凍り付く」という表記から、「語彙素」だとわかり、 語彙素には必ず「語彙素読み」を隣接出力しているので、左隣の「コオリツク」が語彙素読みだとわかります。 「こおりつけ」,「コーリツケ」,「コオリツケ」はそれぞれ「書字形出現形」、「発音形出現形」、「仮名形出現形」です。 発音形と仮名形はいずれも片仮名表記されますが、「凍り」の仮名形は「コオリ」で、発音形だと「コーリ」と長音記号を使って表記されるので、容易に区別できます。 「和」は語種で、そのあとに書字形、発音形、仮名形の「基本形」が並んでいます。直後の「コオリツク」は「語形基本形」です。

Q 列名の英語と日本語の対応関係がわかりません。

次のようになります。

pos品詞
pos1品詞大分類
pos2品詞中分類
pos3品詞小分類
pos4品詞細分類
cType活用型
cForm活用形
lForm語彙素読み
lemma語彙素(+語彙素細分類)
orth, orthToken書字形出現形
orthBase書字形基本形
pron, pronToken発音形出現形
pronBase発音形基本形
kana, kanaToken仮名形出現形
kanaBase仮名形基本形
goshu, wType語種
lType語彙素類
form語形出現形
formBase語形基本形
iType語頭変化化型
iForm語頭変化形
iConType語頭変化結合型
fType語末変化化型
fForm語末変化形
fConType語末変化結合型