「メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.
[この項目は 「カナダからのブログ: Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 から投稿日時もふくめてコピーしたものです.]
これまで Windows 7 の RC 版をつかってきた. 製品版がでまわるようになったので,あらためて Home Premium の OEM 版にのせかえた. RC 版ととくにかわったことはおこっていない.
Wikipedia 検索に関しては,まえにかいたときは,8 GB のメモリをつかっても,日本語 Wikipedia の一部だけしか検索できなかった. 16 GB のせられるマシンではあるが,そのためには 4 GB のモジュールを 4 個,つまなければならない. まだ 4 GB のは 1 万円以上しているので躊躇する. しかし,それを 1 枚だけ買ってのせてみた. マシンとの相性で問題がおこりやすいときいていたので,問題が発生したら交換できるようにオプションをつけたうえで買ったが,問題はおこらなかった. ただ,2 GB のモジュールが CL5 であるのに対して,4 GB のは CL6 であり,つかってみると格段におそい気がする.
ともかく,10 GB のメモリをのせて,かつ検索アルゴリズムを改良してメモリ必要量をへらし,やっと日本語 Wikipedia 全体をメモリにのせて検索できるようになった. 検索時間はまだ十分はやいとはいえないが,むしろ検索結果がしぼれないことが問題だ. たいていの検索で数 100 項目の結果がえられる. そのテキスト量や転送にかかる時間がおおきすぎる. うまくいったら Web で公開したいとかんがえているが,いまのままでは困難だ.
検索結果のさわりだけ,ここにのせておくことにしよう. 「漱石」 を年代軸で検索した結果だ. 以前の 「軸づけ検索」 とは検索法はちがっているが,検索結果を年代順に整列させている点ではおなじだ.
関連ページ (2009-12-13 追記):