いつも Wikipedia の最新のテキストを検索することができればよいが,軸づけ検索には前処理が必要なのでそうはいかない. ときどき全部の項目をかためたファイル (jawiki-latest-pages-articles.xml) をダウンロードして前処理をおこなって使用している.
http://download.wikimedia.org/jawiki/latest/ から日本語版 Wikipedia に関するさまざまなファイルをダウンロードすることができる. そのなかに jawiki-latest-pages-articles.xml.bz2 というファイルがあるので,これをダウンロードして解凍してつかっている. もとのファイルは 1 GB くらいのおおきさだが,解凍すると 4 GB くらいにふくらむ. ここからタグづけされたテキストを生成するとやはり 4 GB くらい,それにしぼりこみのためのインデクスが 2.5 GB くらい (ほんとうはもっとメモリがとれればしぼりこみの効果をあげることができる) あり,これらをすべてメモリにのせて処理しようとすると 8 GB をこえるメモリが必要になる.