Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索
「メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.
「メモリ上での Wikipedia 検索と Windows 7 をめざした,あたらしいマシン」 という項目で Windows 7 のマシンをたちあげて,Wikipedia の検索をこころみていることを書いた. 最近,Windows 7 は製品版にのせかえ,Wikipedia 検索はやっと全体を検索できるところまできた.
Wikipedia をネタにして 「軸づけ検索」 をひろくためせるようにしたいというおもいは,ずっとまえからあった. 「Windows 7 製品版のインストールと 10 GB メモリによる日本語 Wikipedia 全体の検索」 などの項目に書いたように,ようやくそれにちかいことが実現しようとしている.
日本語版 Wikipedia のあたらしい検索サービス WASS の試行を 2009 年 12 月 13 日に開始する予定です. WASS (Wikipedia Axis-Specified Search) は Wikipedia を検索して,年代や地名によって整列した結果をえる検索サービスです. WASS をつかえば,特定のテーマに関する年表をつくったり,特定のテーマに関する記述を地域ごとにまとめたりすることができます. このような検索のインターフェースは開発者が 「軸づけ検索」 と呼んできたものです.
WASS の地域軸検索を実現するために,地名データベースをつかっている. Web 上で利用可能な地名の情報をもとにしてそれをつくっている. 検索サービス公開前にはあまり興味をひかないとはおもうが,あらかじめ WASS における地名データベースの生成法について書いておくことにする.
WASS においては,タグづけサブシステムにおいて,テキストがふくむ年代表記や地名にタグが挿入される. ここでは,どういうタグが挿入されるかを説明する.