読者です 読者をやめる 読者になる 読者になる

KyTea

NLP

KyTeaなる京都テキスト解析ツールキットを導入してみた。

インストールはとても簡単で、私のCentOS 6.2の場合、以下のようないつもの手順でできました。

$ ./configure
$ make
# make install

ただ、私のOSが仮想マシンだからかなんだか知らないが、なんか遅い気がする。

簡単に測定してみました。

まず、Jumanの結果は以下のようになった。

$ juman < text.raw
Cosminexus Cosminexus Cosminexus 未定義語 15 その他 1 * 0 * 0 NIL
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
、 、 、 特殊 1 読点 2 * 0 * 0 NIL
日立製作所 ひたちせいさくしょ 日立製作所 名詞 6 組織名 6 * 0 * 0 "代表表記:日立製作所/ひたちせいさくしょ"
の の の 助詞 9 接続助詞 3 * 0 * 0 NIL
ソフトウェア そふとうぇあ ソフトウェア 名詞 6 普通名詞 1 * 0 * 0 "代表表記:ソフトウエア/そふとうえあ カテゴリ:抽象物 ドメイン:科学・技術"
である である だ 判定詞 4 * 0 判定詞 25 デアル列基本形 15 NIL
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
EOS

real    0m0.076s
user    0m0.001s
sys     0m0.075s

次に、MeCabの結果は以下のようになった。

$ time mecab < text.raw
Cosminexus      名詞,固有名詞,組織,*,*,*,*
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
、      記号,読点,*,*,*,*,、,、,、
日立製作所      名詞,固有名詞,組織,*,*,*,日立製作所,ヒタチセイサクショ,ヒタチセイサクショ
の      助詞,連体化,*,*,*,*,の,ノ,ノ
ソフトウェア    名詞,一般,*,*,*,*,ソフトウェア,ソフトウェア,ソフトウェア
で      助動詞,*,*,*,特殊・ダ,連用形,だ,デ,デ
ある    助動詞,*,*,*,五段・ラ行アル,基本形,ある,アル,アル
。      記号,句点,*,*,*,*,。,。,。
EOS

real    0m0.019s
user    0m0.002s
sys     0m0.019s

最後に、KyTeaの結果は以下のようになった。

$ time kytea < text.raw
Cosminexus/名詞/UNK は/助詞/は 、/補助記号/、 日立/名詞/ひたち 製作/名詞/せいさく 所/接尾辞/しょ の/助詞/の ソフトウェア/名詞/そふとうぇあ で/助動詞/で あ/動詞/あ る/語尾/る 。/補助記号/。

real    0m2.478s
user    0m0.734s
sys     0m1.745s

やっぱり、MeCabが最速で、KyTeaはなんかもっさりという感じだった。

まぁ、まだ完成しているソフトウェアでもないと思うので、これからに期待したいと思います。
個人的に、いろいろ使ってみたいと思うところもあります。
特に、知りたいのが、分野適応がどこまで簡単なのだろうか?というところです。
ただ、こればっかりは自分で実際に手を動かさないとわからないと思うし、いろいろやってみようと思います。

広告を非表示にする