butterfly search 3.0b をリリースしました。

 butterfly search 3.0b をリリースしました。


リリース先:   https://www.vector.co.jp/soft/winnt/util/se437071.html

(vectorさんでの審査後に公開されます。執筆時点では旧バージョンが公開されています)


大きな変更点としては、インデックスに登録する条件を増やしました。

今までインデックスのキーとして登録していなかった単語同士の組み合わせも

登録するようにしました。これにより今まで苦手だった、よく登場するけどその組み合わせはあまりないという条件、

例えば「0+0」の検索がまともな速度で動作する様になりました。英語の文章検索も速くなっています。

これによる副作用としては、キーの数が1.5倍くらい増え、インデックスの作成時間も1.5倍くらい長くなりました。


■「0+0」の場合

・3.0aまで

 → 「0」,「+」の2つをインデックスに登録。

・3.0bから

 → 「0」,「+」の2つをインデックスに登録しさらに、

      「0+」,「0+0」,「+0」の3つをハッシュ化後にインデックスに登録。



■「This is a Pen.」の場合

・3.0aまで

 → 「THIS」,「IS」,「A」,「PEN」,「.」の5つをインデックスに登録。

・3.0bから

 → 「THIS」,「IS」,「A」,「PEN」,「.」,「 」の5つをインデックスに登録しさらに、

     「THIS 」,「 IS」、「IS 」,「 A」「A 」,「 PEN」「PEN.」,

     「THIS IS」「 IS 」,「IS A」,「 A 」,「A PEN」,「 PEN.」の14つをハッシュ化後にインデックスに登録。


 ■「今日はいい天気ですね。」の場合

・3.0aと3.0bで違い無し

 → 「。」、「い」、「いい」、「いい天」、「い天」、「い天気」、「す」、「すね」、

   「すね。」、「で」、「です」、「ですね」、「ね」、「ね。」、「は」、「はい」、

   「はいい」、「今」、「今日」、「今日は」、「天」、「天気」、「天気で」、「日」、

   「日は」、「日はい」、「気」、「気で」、「気です」の29つをインデックスに登録。


コメント

このブログの人気の投稿

よく使われる四文字熟語ランキング

butterfly search 4.1 をリリースしました。