読者です 読者をやめる 読者になる 読者になる

Jumanのインストール

NLP

Jumanも気づけばバージョン7ですか。
私が最初に使ったのは、バージョン3だったか4だったかぐらいでしたね。
当時、大学1年生でした。
ウェブ上の解説を見ながら、一週間ぐらいかけてインストールしました。
当時は、Linuxの知識が皆無だったので苦労しました。

今時の大学生がインストール程度で困るのかわからないですが、当時の私の気持ちを思い出して、Jumanのバージョン7のインストール方法を書いておきます。

インストールだけなら簡単です。

私の環境は、CentOS 6.2なので、このOSなら以下のやり方がそのまま通用するはずです。
OSが違う場合もほとんどの場合、通用するはずです。

まず、前準備ですが、Jumanを各ユーザのローカルにインストールするのか、システム全体にインストールするのかで話は変わります。
まぁ、汎用的なやり方として、各ユーザのローカルにインストールする方法を説明します。
root権限を持っていない自分のログインIDだけがあるシステムの場合でも使えます。

Linuxにログインしたら、/home以下に「/home/[my_account]」のようなディレクトリが存在するはずです。
ここで、[my_account]とは、自分のログインIDです。

次に、以下のようにディレクトリを作ります。

$ cd /home/my_account
$ mkdir usr
$ cd usr
$ mkdir local
$ cd local
$ mkdir src
$ cd src
$ mkdir juman
$ cd juman
$ pwd
/home/my_account/usr/local/src/juman

つまり、自分の/home/my_account/usr/localに自分のjumanをインストールするのです。
システム全体で使えるようにする場合は、/usr/localにインストールしておけば良いです。

次に、jumanをダウンロードします。

Juman自体は、京都大学の以下のページから入手できます。

http://nlp.ist.i.kyoto-u.ac.jp/index.php?JUMAN

私が、初めてJumanを触った時は、黒橋先生は東京大学にいらっしゃったと思うが、いつの間にか京都大学に帰ってきていたんですね。
Jumanのインストールには関係ないんですが、ふと思いました。

juman-7.0.tar.bz2というファイルを先ほど作成した

/home/my_account/usr/local/src/juman

にダウンロードします。

これは圧縮ファイルなので、展開する必要があります。

以下のコマンドで展開します。

$ cd /home/my_account/usr/local/src/juman
$ tar xvjf juman-7.0.tar.bz2

tarコマンドのオプションについては説明しませんが、bzip形式の場合は、「j」を指定するようです。
zip形式の場合は、「z」ですね。

展開したら先ほどダウンロードしたファイル以外に以下のようなフォルダができているはずです。

$ ls
juman-7.0  juman-7.0.tar.bz2

ソース形式での配布なので、自分で自分の環境に合わせてmakeしなければなりません。
ここが一番ドキドキする作業です。

ではやってみましょう。

$ cd juman-7.0
$ ./configure --prefix=/home/my_account/usr/local

configureというコマンドで、自分の環境に合わせてMakefileを作ってくれます。
便利ですね。
エラーが出ていなければ、Makefileが作成されているはずです。

configureコマンドにオプションで「--prefix」としていたのは、インストールする場所を決定するためです。
デフォルトは、/usr/localになります。
しかし、自分のローカルにインストールする場合は、デフォルトでは都合が悪いので、prefix指定によって、変更したわけです。
自分にとって都合が良い「/home/my_account/usr/local」を指定します。

さて、次に、makeを実行します。

$ make

上記のようにするとjumanコマンドが作成されます。
ポイントは、最初のmakeでエラーが出力されないことです。
最初のmakeがコンパイルに当たるので、ここでエラーが出るとJumanが正しく作成されません。
エラーが出た場合は、どこかに問題があるので、問題を解決してください。

最後に、以下のようにすることで、インストール作業が行われれます。

make install

インストールされる場所は、以下です。

/home/my_account/usr/local/bin

上記の場所にパスが通っていれば、jumanというコマンド名だけで実行できますが、パスが通っていない場合は、パスを通しておくことをオススメします。

実行した結果は、以下のようになります。

$ echo '日立製作所は、日本最大の電機メーカーです。' | juman
日立製作所 ひたちせいさくしょ 日立製作所 名詞 6 組織名 6 * 0 * 0 "代表表記:日立製作所/ひたちせいさくしょ"
は は は 助詞 9 副助詞 2 * 0 * 0 NIL
、 、 、 特殊 1 読点 2 * 0 * 0 NIL
日本 にほん 日本 名詞 6 地名 4 * 0 * 0 "代表表記:日本/にほん 地名:国"
@ 日本 にっぽん 日本 名詞 6 地名 4 * 0 * 0 "代表表記:日本/にほん 地名:国"
最大の さいだいの 最大だ 形容詞 3 * 0 ナノ形容詞 22 ダ列特殊連体形 4 "代表表記:最大だ/さいだいだ 反義:形容詞:最小だ/さいしょうだ"
電機 でんき 電機 名詞 6 普通名詞 1 * 0 * 0 "代表表記:電機/でんき カテゴリ:人工物-その他 ドメイン:科学・技術"
メーカー めーかー メーカー 名詞 6 普通名詞 1 * 0 * 0 "代表表記:メーカー/めーかー カテゴリ:組織・団体 ドメイン:ビジネス"
です です だ 判定詞 4 * 0 判定詞 25 デス列基本形 27 NIL
。 。 。 特殊 1 句点 1 * 0 * 0 NIL
EOS

MeCabも実行速度が速くて良いですが、速度にあまりこだわらないのであれば、解析結果に情報がたくさん付与されているJumanもおもしろいかもしれません。
私は、Jumanを一番長く使ったので、この記事で使う人が増えるとありがたく思います。