UbuntuでMecabを使ってみる

ブログを久々に書き始めていたら、やりたいことが浮かんだのでしばらくメモがわりにブログ書いてみます。

今回やりたいと思うことは、自然言語の処理なので何はともあれMecabを入れてみます。

Mecabっていうのは日本語の文書を分析して単語の塊に分けてくれる(形態素解析)ソフトです。
またただ単語に分けるだけでなく分けられた単語の種類(名詞、動詞、形容詞...)を判別してくれたりします。

mecabのインストール

って言っても手抜きしてapt頼みです。
NAIST辞書があったのでこっち使ってみます。
mecab本体と開発用ライブラリ、辞書(NAIST辞書)

$ sudo apt-get install mecab libmecab-dev mecab-naist-jdic

mecabを試してみる

$ echo Mecabっていうのは日本語の文書を分析して単語の塊に分けてくれる(形態素解析)ソフトです。 | mecab
Mecab	名詞,固有名詞,組織,*,*,*,*
っていう	助詞,格助詞,連語,*,*,*,っていう,ッテイウ,ッテユウ,,
の	名詞,非自立,一般,*,*,*,の,ノ,ノ,,
は	助詞,係助詞,*,*,*,*,は,ハ,ワ,,
日本語	名詞,一般,*,*,*,*,日本語,ニホンゴ,ニホンゴ,,
の	助詞,連体化,*,*,*,*,の,ノ,ノ,,
文書	名詞,一般,*,*,*,*,文書,ブンショ,ブンショ,,
を	助詞,格助詞,一般,*,*,*,を,ヲ,ヲ,,
分析	名詞,サ変接続,*,*,*,*,分析,ブンセキ,ブンセキ,,
し	動詞,自立,*,*,サ変・スル,連用形,する,シ,シ,,
て	助詞,接続助詞,*,*,*,*,て,テ,テ,,
単語	名詞,一般,*,*,*,*,単語,タンゴ,タンゴ,,
の	助詞,連体化,*,*,*,*,の,ノ,ノ,,
塊	名詞,一般,*,*,*,*,塊,カタマリ,カタマリ,,
に	助詞,格助詞,一般,*,*,*,に,ニ,ニ,,
分け	動詞,自立,*,*,一段,連用形,分ける,ワケ,ワケ,わけ/分け,
て	助詞,接続助詞,*,*,*,*,て,テ,テ,,
くれる	動詞,非自立,*,*,一段・クレル,基本形,くれる,クレル,クレル,,
(	記号,括弧開,*,*,*,*,(,(,(,,
形態素	名詞,一般,*,*,*,*,形態素,ケイタイソ,ケイタイソ,,
解析	名詞,サ変接続,*,*,*,*,解析,カイセキ,カイセキ,,
)	記号,括弧閉,*,*,*,*,),),),,
ソフト	名詞,一般,*,*,*,*,ソフト,ソフト,ソフト,,
です	助動詞,*,*,*,特殊・デス,基本形,です,デス,デス,,
。	記号,句点,*,*,*,*,。,。,。,,
EOS

うん、ちゃんと動いてる。とりあえずaptで入る辞書しか入れてませんが、ユーザが用意した辞書を入れることもできます。
それはまた別のお題で