読者です 読者をやめる 読者になる 読者になる

Wikipediaのローカル環境構築

日本語読点「、」挿入システムのデータをWikipediaのものにしようと計画している。そのために、Wikipediaの日本語サイトからデータをダウンロードして、MediaWikiから閲覧できるようにしてみた。

ただ、以下のようにxml2sqlを動作させると、

bzcat jawiki-20090810-pages-articles.xml.bz2 | xml2sql

うまくいかない・・・。

なので、強引に、

bzcat jawiki-20090810-pages-articles.xml.bz2 | sed -e 's/<redirect \/>//' | xml2sql

として解決させた。タグをうまく認識していないみたい。でもこの解決方法どうなんだろう・・・。とりあえず、SQLに代入できて、Wikipediaのクローンとして動いているが・・・。

あとで、よく考えれば、別にMySQLにしなくても、テキストデータが使えればいいのだからXMLをパージングすれば良かった。そのように作り直して、テキストデータを抽出して実験を始めようっと。