WASS においては,タグづけサブシステムにおいて,テキストがふくむ年代表記や地名にタグが挿入される. ここでは,どういうタグが挿入されるかを説明する.
タグづけサブシステムにおいてどのようなタグが挿入されるかを下図にに例示する. タグの形式は Microformats [Mic 09] に準拠 (年代表記の場合) もしくはできるだけ Microformats にちかい形式 (地域の場合) としている. Microformats は Web ドキュメントにタグづけするための形式を定義している.
タグが挿入された HTML ファイルは Web ブラウザによって通常どおりに表示することができ,かつタグがうめこまれた場所にマウスポインタをおくことによって,タグの内容が表示される. また,Web ブラウザとして Firefox を使用したときは,タグがうめこまれた場所に下線が表示されるので,タグの有無を容易にみてとることができる.
検索・整列サブシステムにおいては検索用のテキストをメモリにロードし,逐次検索によって検索している. 逐次検索は原始的なアルゴリズムであり大規模な検索システムには適さないが,この検索システムは 1 人または少人数による使用を前提として設計しているため,また現在のパソコンでは世界大百科事典程度のテキスト量の検索のためには逐次検索でも実用になるため,このような方法をとっている.
また,検索・整列サブシステムにおいては,単純な全文検索だけでなく,タグの情報を利用して特定の範囲の年代や特定の地域の情報をふくむ段落を検索することができる. また,検索結果を年代や地域によって整列して表示することができる. すなわち,検索結果を年表のような形式で表示したり,(日本の地域に関するものは) 北から南へ順に表示したりすることができる. さらに,検索結果の各段落はそれがふくむ文ごと (正確には 「句」 ごと) に自動的にスコアが付与され,その結果を使用して段落ごとにランクづけされる. スコアにしたがって段落のなかの重要な部分だけを表示するようにしたり,ランキングによって結果を順序づけたりすることができる.
年代表記の抽出と正規化
地名の抽出と正規化
参考文献
- [Mic 09] Microfotmats Community, “Microformats Wiki”.