2009年5月28日木曜日

さて、全文検索

3Mbytes位のテキストなので、grepで検索してもたいした時間はかからないのだけれど...
CPUやハードディスクへの負担がかなり高いのでもう少しスマートにやりたいな、ということ。

postgresqlが全文検索エンジンを積んでいるということなので、その説明書きをつらつら読んでいるのだけれど、読んだ印象は全文検索というよりは、キーワード検索なのかな? というところ。
例えば、「東京都」が文に含まれていたとして、これを分かち書き処理で、「東京|都」と分割して処理されていたとすると、「京都」で検索したときにこれが検索で呼び出されるのだろうか?

検索にかかった方がいい、という立場と、かからない方がいい、という立場の両方共有り得るので、どちらがいいという訳ではないのだけれど。

もう一つの問題は、新旧漢字の混在の問題。
たとえば、教 と 敎、絶 と 絕 のように、必ずしも本文の中で統一されていない漢字は、一方の漢字で検索したときに、もう一方の漢字も見つけて欲しい。
( 旧漢字に統一されている場合ですら、検索するときに、いちいち旧漢字で入力しなくてはいけない となると、これはとても憂鬱な話だ。)

まあ、実験してみるしかないね。

0 件のコメント:

コメントを投稿