読者です 読者をやめる 読者になる 読者になる

wikipediaのカテゴリ抽出

ようやくわかった。

すべてのページにカテゴリがあるから、pageテーブルとcategorylinksテーブルがあれば、カテゴリの階層構造を作ることができる。これは、既存のテーブルにはないから、自分でデータベースを解析して木構造を作らなければいけないはず。

要は、「コンピュータ」ぐらい大きなカテゴリの分類で、そのカテゴリに含まれているページすべてを抽出できればいいから、この問題は解決したっぽい。

これで気持ち良く眠れるぜ。