読者です 読者をやめる 読者になる 読者になる

文字列操作

NLP

こんな良書が出ていたとは知りませんでした。すぐに買いました。

高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学)

高速文字列解析の世界――データ圧縮・全文検索・テキストマイニング (確率と情報の科学)

慣れない英語を読みながら、自分が独学してきた内容がこんなにコンパクトにまとめられている。しかも日本語だし。わずか3000円だし。飲み会を一回行かないだけで買えます。買いです。当然です。

通勤とか休みの日に流し読みしました。頭の中がだいぶ整理されました。あと何回か読めば、完全に消化できそうです。ただ、文字列を扱うことに慣れていない人や検索インデックスについて知らない人が最初に読む本ではないです。逐次検索とかN-gram索引の説明がだいぶあっさりしています。まぁ、この本のメインではないから当然ですが。

この本を読む前に読んだ方がいいと私が思う本を紹介しておきます。

ほんとの導入。とってもわかりやすいです。数式とか一切出てきません。

検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識

検索エンジンはなぜ見つけるのか ―知っておきたいウェブ情報検索の基礎知識

次に読むべき本ではないぐらい難しいですが、重要なことが書いてあります。
逐次検索で有名なアルゴリズムであるAho-Corasick法について詳しく書いてあります。

情報検索アルゴリズム

情報検索アルゴリズム

翻訳本です。紹介するまでもなく有名だと思いますが、一応、紹介しておきます。
全般的な内容について書かれています。検索に関するあらゆる範囲をかじることができます。

情報検索の基礎

情報検索の基礎

ちょっと高度ですが、逐次検索をより深く知りたい人にオススメです。
Wild Cardや正規表現について知ることができます。

Flexible Pattern Matching in Strings: Practical On-Line Search Algorithms for Texts and Biological Sequences

Flexible Pattern Matching in Strings: Practical On-Line Search Algorithms for Texts and Biological Sequences

あとは、手を使って実装して、自分で動かしてみれば、アルゴリズムに対する理解が深まるはずです。
私もFM-IndexとかJavaで実装してみようと思ってます。

広告を非表示にする