butterfly search 4.2 をリリースしました。
リリース先: https://www.vector.co.jp/soft/winnt/util/se437071.html
(vectorさんでの審査後に公開されます。執筆時点では旧バージョンが公開されています)
変更点は処理速度向上と表記ゆれ検索機能の追加になります。
■新機能 表記ゆれ検索
この機能は聞いた事ないと思います。世界初※ではないでしょうか。
表記ゆれと言っても、タイポ(複数文字の誤りや抜け)を見つける機能となります。
簡単にいうと
・disc → disk
・flag → flg
を見つけてくれます。
対象は「アルファベット」と「数字」と「_」の列のみとなります。
編集距離(レーベンシュタイン距離)を意識しています。
※Word等にも表記ゆれ検知はありますが辞書にない単語を表示しているだけだと思います。
■実力
品質が非常に高いと言われるLinuxのソースコード(https://github.com/torvalds/linux)で確認したいと思います。
- 「kernel」という単語を「一文字違う」条件で検索すると、
一瞬にして5件のkernelバグ?(たぶんスペルミス)を見つけました。
- 著作権表記「Copyright」を「一文字違う」条件で検索すると、
スペルミスが4件見つかりました。著作権違反?(笑)
ぜひbutterfly searchを活用して表記ゆれを見つけてください。
コードレビュー時に使用すれば、みんなびっくりする事間違いなしです。
■表記ゆれ検索の使い方
マニュアルの整備が追い付いていないのでここにメモを書きます。
- 使用方法
検索文字列を入れて「表記ゆれ」ボタンを押下します。
- ヒント
?は1文字を意味します。
*は複数文字を意味します。
「A??B」 で表記ゆれ検索すると、例えば「AAAB」がヒットします。
「A*B」 で表記ゆれ検索すると、Aで始まってBで終わる単語がヒットします。
下記の表記ゆれ条件はすべて外しても「?」「*」が含まれていれば検索します。
(2)シフトキー
シフトキーを押下すると?と*の部分のみ表示されます。目がカチカチするのでこの機能を入れています。
※1つ目のCopyrightはシフトキーによる一致確認が正しくできていません。。。
作りが雑で申し訳ありませんが試してみてください。
パワーポイント(PPT)内のテキストデータからも、メタデータを作って欲しい。と言う希望です。
返信削除noguchiさん
返信削除こんにちは。ご利用ありがとうございます。
butterfly_searchはPPTへも対応しています。
エラーになっているのであれば、
・ファイルが暗号化されている
・アクセス権が不足している
・PPT内部の情報がテキストではなく画像になっている
・PPTのフォーマットが新しすぎて対応できていない
・文字化けしている
等々あると思います。
変換できないPPTをこちらまで送付してもらえれば確認できると思います。
よろしくお願いします。
あ、メタデータ(作成者名等)の抽出ですね。これは対応していませんので、対応してみたいと思います。コメントありがとうございました。
返信削除遅れましたが、確認できました。PPTは取得できるが、テキストファイルより難しいようでした。
返信削除メタデータが取得できるツールを探しましたが、日本語が文字化けしたり、pythonのインストールが必要だったりと、マッチするものはありませんでした。
返信削除仕方がないのでメタデータ取得ツールを自分で作成しまして、現在はテスト中になります。
年内には公開できるか、、、といったところです。
noguchiさん
返信削除Ver4.3でメタデータに対応しました。Ver4.3はVectorさんの審査中になりますので、1~2週間後に公開されると思います。
ありがとうございます。
返信削除Windowsが10~11になって、検索が本当に使い物にならないので、文書管理だけですが、本当に重宝しています(もう何年使っているか?)
今度、Vectorで最新版を落としたら、スパチャというか、投げ銭させてもらいます。