これまで,カタカナ語やひらがな語の一部の検索にはかなり検索時間がかかっていた. たとえば 「アイドル」 の検索には検索サーバ側で 16 秒くらいかかっていた. その原因はこれらの語の 2 グラム・インデクスがいずれも候補がおおくて,事典項目のしぼりこみがゆるくなっていたためだ. それを改善する方法をくふうしてくみこんだので,「アイドル」 などは 14 秒くらいまでは改善されたが,総合的には比較的わずかな改善にとどまった.
このブログへのアクセスはふえてきた. 開設したばかりだが 12 月のアクセスは 456 件であり,www.dasyn.com と www.kanadas.com をあわせたページ・ランキングで 10 位以内にはいっている. ところが,このページには検索ページへのリンクもはってあるのに,検索をためすひとはほとんどいない. なんとか,そちらにトラフィックを誘導する方法をかんがえる必要がある. また,ほかのプロモーションの方法もかんがえる必要がある.
「候補しぼりこみの高速化」 という項目で検索候補しぼりこみに使用しているインデクスのアクセス法を改善して 5 割くらい高速化したことを書いた. さらにインデクスの検索法を改善して,しぼりこみに関しては数倍の高速化をはかった.
いつも Wikipedia の最新のテキストを検索することができればよいが,軸づけ検索には前処理が必要なのでそうはいかない. ときどき全部の項目をかためたファイル (jawiki-latest-pages-articles.xml) をダウンロードして前処理をおこなって使用している.
工学院大学で年に 2 コマだけ講義をひきうけている. そのうちの 1 コマで軸づけ検索をとりあげているのだが,今年はそのデモに Wikipedia の検索をとりあげてみた. インターネット・アクセス環境の制約などのため,かならずしも意図したとおりにはいかなかった.
WASS の軸づけ検索では最初に文字インデクスを使用して検索対象をしぼりこむ. そのためにこれまで Perl の vec() を使用していたが,unpack() を使用する方法にかえて,この部分だけをとると 5 割ほど高速化された.
「発見ナビ」 と初期の 「ネットで百科」 の 「テーマ地名検索」 (地域軸検索) には,検索結果からその地域の地図をひらく機能があった. しかし,WASS の開発をはじめてからつい最近まで,地図表示についてはなにもかんがえずにきた. やっとそれに気がついて,Google Map 表示機能をつけた.
WASS のサービスに使用している PC は,最初は仮想メモリを規定値にしていた. ところが,これでアイドル状態がつづくと,せっかく主記憶に展開した Wikipedia のテキストがディスクにおいだされて,検索がおそくなってしまう. それをさけるために,とりあえず仮想メモリを 800 MB にまでちぢめた.
日本語版 Wikipedia のあたらしい検索サービス WASS (Wikipedia Axis-Specified Search) の試行を予定どおり 2009 年 12 月 13 日に開始しました. WASS をつかうとなにができるかについては,「WASS - Wikipedia から整理された検索結果をえる検索サービス」 や 「機能の概要」 をみてください. まだ不十分ですが,使用の手引も一応,用意してあります.
WASS においては,タグづけサブシステムにおいて,テキストがふくむ年代表記や地名にタグが挿入される. ここでは,どういうタグが挿入されるかを説明する.
WASS の地域軸検索を実現するために,地名データベースをつかっている. Web 上で利用可能な地名の情報をもとにしてそれをつくっている. 検索サービス公開前にはあまり興味をひかないとはおもうが,あらかじめ WASS における地名データベースの生成法について書いておくことにする.
日本語版 Wikipedia のあたらしい検索サービス WASS の試行を 2009 年 12 月 13 日に開始する予定です. WASS (Wikipedia Axis-Specified Search) は Wikipedia を検索して,年代や地名によって整列した結果をえる検索サービスです. WASS をつかえば,特定のテーマに関する年表をつくったり,特定のテーマに関する記述を地域ごとにまとめたりすることができます. このような検索のインターフェースは開発者が 「軸づけ検索」 と呼んできたものです.
Wikipedia をネタにして 「軸づけ検索」 をひろくためせるようにしたいというおもいは,ずっとまえからあった. 「Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 などの項目に書いたように,ようやくそれにちかいことが実現しようとしている.
「メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.