2012年7月28日土曜日

whooshのインデックス

whooshのMLを見ていたら、言語毎にanalyzerを使い分けたいという話の流れの中で、自分でtokenizeして書き込む例(test)が紹介されていました。
その例は、Schemaの定義にはanalyzerを設定せずにインデックスを構築するものでした。igo-pythonを使うとtokenizerがインデックスにpickleされて保存されるので、インデックスが大きくなるのが悩みだったのですが、この方法なら肥大化を避けられます(pickle時に細工して回避する手段は入れてありますが)
なので、実際にどのくらい変わるか確認してみました。tocファイルのサイズが全然違う(41186237 vs 996)ことがわかります。

ソース(gist)

結果(gist)

0 件のコメント:

コメントを投稿