WASS 試行サービスの開始
日本語版 Wikipedia のあたらしい検索サービス WASS (Wikipedia Axis-Specified Search) の試行を予定どおり 2009 年 12 月 13 日に開始しました. WASS をつかうとなにができるかについては,「WASS - Wikipedia から整理された検索結果をえる検索サービス」 や 「機能の概要」 をみてください. まだ不十分ですが,使用の手引も一応,用意してあります.
日本語版 Wikipedia のあたらしい検索サービス WASS (Wikipedia Axis-Specified Search) の試行を予定どおり 2009 年 12 月 13 日に開始しました. WASS をつかうとなにができるかについては,「WASS - Wikipedia から整理された検索結果をえる検索サービス」 や 「機能の概要」 をみてください. まだ不十分ですが,使用の手引も一応,用意してあります.
WASS のサービスに使用している PC は,最初は仮想メモリを規定値にしていた. ところが,これでアイドル状態がつづくと,せっかく主記憶に展開した Wikipedia のテキストがディスクにおいだされて,検索がおそくなってしまう. それをさけるために,とりあえず仮想メモリを 800 MB にまでちぢめた.
「発見ナビ」 と初期の 「ネットで百科」 の 「テーマ地名検索」 (地域軸検索) には,検索結果からその地域の地図をひらく機能があった. しかし,WASS の開発をはじめてからつい最近まで,地図表示についてはなにもかんがえずにきた. やっとそれに気がついて,Google Map 表示機能をつけた.
WASS の軸づけ検索では最初に文字インデクスを使用して検索対象をしぼりこむ. そのためにこれまで Perl の vec() を使用していたが,unpack() を使用する方法にかえて,この部分だけをとると 5 割ほど高速化された.
工学院大学で年に 2 コマだけ講義をひきうけている. そのうちの 1 コマで軸づけ検索をとりあげているのだが,今年はそのデモに Wikipedia の検索をとりあげてみた. インターネット・アクセス環境の制約などのため,かならずしも意図したとおりにはいかなかった.
いつも Wikipedia の最新のテキストを検索することができればよいが,軸づけ検索には前処理が必要なのでそうはいかない. ときどき全部の項目をかためたファイル (jawiki-latest-pages-articles.xml) をダウンロードして前処理をおこなって使用している.
「候補しぼりこみの高速化」 という項目で検索候補しぼりこみに使用しているインデクスのアクセス法を改善して 5 割くらい高速化したことを書いた. さらにインデクスの検索法を改善して,しぼりこみに関しては数倍の高速化をはかった.