Edge, Chrome, Safari, Firefox推奨
UniDicのロゴ コーパス開発センターのロゴ
現代書き言葉UniDic unidic_bccwj

ファイルサイズが2.2Gと非常に大きいので、ダウンロードの際は注意してください。

現代の書き言葉テキストを短単位自動解析するための解析用辞書です。 以下のようなテキストの解析に使用できます。

書籍、 雑誌、 新聞、 白書、 検定教科書、 広報紙、 Web掲示板、 ブログ、 韻文、 法律文書、 国会会議録 など

この解析用辞書を利用して行なった研究等の成果を公表する場合は、その旨を明記してください。 必要に応じて参考文献に挙げた文献を参照してください。

ライセンス
GPL/LGPL/BSD License

unidic_bccwj_download_button

旧バージョンはこちら

web_chamame

参考文献
  • 岡 照晃: 「CRF素性テンプレートの見直しによるモデルサイズを軽量化した解析用UniDic ― unidic-cwj-2.2.0 と unidic-csj-2.2.0 ― 」, 言語資源活用ワークショップ2017発表予稿集, pp.143-152 (2017).
  • 伝 康晴, 小木曽 智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007). [can not read online]
  • 伝 康晴. 多様な目的に適した形態素解析システム用電子化辞書, 人工知能学会誌, Vol.24, No.5, pp.640-646 (2009).
References
  • Yasuharu Den, Toshinobu Ogiso, Hideki Ogura, Atsushi Yamada, Nobuaki Menematsu, Kiyotaka Uchimoto, Hanae Koiso. The development of an electronic dictionary for morphological analysis and its application to Japanese corpus linguistics, Japanese Linguistics, Vol.22, pp.101-123 (2007). [in Japanese][cannot read online]
  • Yasuharu Den. A Multi-Purpose Electronic Dictionary for Morphological Analyzers, Journal of Japanese Society for Artificial Intelligence, Vol.24, No.5, pp.640-646 (2009). [in Japanese]
  • Kikuo Maekawa, Makoto Yamazaki, Takehiko Maruyama, Masaya Yamaguchi, Hideki Ogura, Wakako Kashino, Toshinobu Ogiso, Hanae Koiso and Yasuharu Den. Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese, In Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010), pp.1483-1486 (2010).
現代話し言葉UniDic unidic_csj

ファイルサイズが2.2Gと非常に大きいので、ダウンロードの際は注意してください。

現代話し言葉の転記テキストを短単位自動解析するための解析用辞書です。 学習には『日本語話し言葉コーパス(CSJ)』と 『日本語日常会話コーパス(CEJC)』を利用しているので、 それぞれの転記基準に即したテキストの解析に使用できます。

CSJとCEJCの転記基準は以下の文献で確認できます。

CSJの転記基準

  • 小磯花絵・西川賢哉・間淵洋子: 転記テキスト, 日本語話し言葉コーパスの構築法 第2章, pp.23-132 (2006).

CEJCの転記基準

  • 臼田泰如, 川端良子, 西川賢哉, 徳永弘子, 小磯花絵: 『日本語日常会話コーパス』の転記基準について, 言語処理学会第23回年次大会発表論文集, pp.174-177 (2017).
  • 川端良子, 川端 良子, 臼田 泰如, 西川 賢哉, 徳永 弘子, 小 磯 花絵: 「日常会話コーパス」の転記基準と作業工程, 言語資源活用ワークショップ2016予稿集, pp.296-306 (2017).

CRFのモデルのコストが異なるだけで、辞書の語彙は現代書き言葉UniDicと同一です。

この解析用辞書を利用して行なった研究等の成果を公表する場合は、その旨を明記してください。 必要に応じて参考文献に挙げた文献を参照してください。

ライセンス
GPL/LGPL/BSD License

unidic_csj_download_button

旧バージョンはこちら

web_chamame

参考文献
  • 岡 照晃: 「CRF素性テンプレートの見直しによるモデルサイズを軽量化した解析用UniDic ― unidic-cwj-2.2.0 と unidic-csj-2.2.0 ― 」, 言語資源活用ワークショップ2017発表予稿集, pp.143-152 (2017).
  • 伝 康晴, 小木曽智信, 小椋 秀樹, 山田 篤, 峯松 信明, 内元 清貴, 小磯 花絵: 「コーパス日本語学のための言語資源:形態素解析用電子化辞書の開発とその応用」, 日本語科学, Vol.22, pp.101-123 (2007). [can not read online]
  • 伝 康晴. 多様な目的に適した形態素解析システム用電子化辞書, 人工知能学会誌, Vol.24, No.5, pp.640-646 (2009).
References
  • Yasuharu Den, Toshinobu Ogiso, Hideki Ogura, Atsushi Yamada, Nobuaki Menematsu, Kiyotaka Uchimoto, Hanae Koiso. The development of an electronic dictionary for morphological analysis and its application to Japanese corpus linguistics, Japanese Linguistics, Vol.22, pp.101-123 (2007). [in Japanese][can not read online]
  • Yasuharu Den. A Multi-Purpose Electronic Dictionary for Morphological Analyzers, Journal of Japanese Society for Artificial Intelligence, Vol.24, No.5, pp.640-646 (2009). [in Japanese]
  • Kikuo Maekawa, Makoto Yamazaki, Takehiko Maruyama, Masaya Yamaguchi, Hideki Ogura, Wakako Kashino, Toshinobu Ogiso, Hanae Koiso and Yasuharu Den. Design, Compilation, and Preliminary Analyses of Balanced Corpus of Contemporary Written Japanese, In Proceedings of the Seventh International Conference on Language Resources and Evaluation (LREC 2010), pp.1483-1486 (2010).
古文用UniDicS unidic_chj

historical_open_button