ラウンドナップ・コンサルティング公式ブログ 代表中山陽平が記事執筆。コンサルのノウハウ進化のための情報収集の一部を発信中。2004年〜開始。

【無料ツール】類似コンテンツ発見の目安に使える「レーベンシュタイン距離」計算ツール

レーベンシュタイン距離ツール前回のパンダアップデート対策の記事、プログラミング側からシステム側から行なう対策の記事でした。

この記事の中で参考になる数字としてあげている「レーベンシュタイン距離」を簡単に出せないかと言うコメントをFacebookにて頂きました。

▼Facebookページ「海外発のWEB戦略・戦術情報を共有しよう!」

なので、原文のようにPHPは使わずJavaScriptですが作ってみました。

JavaScriptの元ネタはこちらです。

▼Levenshteinenator
http://andrew.hedges.name/
experiments/levenshtein/

また、これ以外にも「levenshtein Javascript」で検索すれば結構出てきます。

ただの計算式なので、どんな言語でもいけるかと。

元記事ではPHPでしたがPHPはそもそもビルトインで関数を持っています。

注意点

本来原文ではDB内のテキストを比較する、という趣旨で紹介されている物です。
DB内に格納されているテキストで類似な物がないかを調べるという趣旨です。

こうやってオンラインツールとして使うに当たっては以下をご注意下さい。 

  • 銀の弾丸ではありません。あくまで参考値です。これ以上ならNG!と決められる物ではありません。
  • 色々な要素に左右されますので、できるだけ誤差を出さないために「コンテンツ部分の文章」だけで比較をすることをお勧め致します。
  • 試した感覚としては
    「500以下だと類似してるかな」「700や800以上あれば違うな」「1000あったら相当違うな」
    でしょうか
  • 「100以下なら相当類似している」かと。
  • ご自身のコンテンツでいくつかテストしてみて、閾値を決めてみて下さい。

レーベンシュタイン類似度チェックツール

文章類似度チェッカー(レーベンシュタイン距離)
文字列1
(比較したい文字列を入れて下さい)
文字列2
(比較したい文字列を入れて下さい)

【LDスコア】

LDスコアレーベンシュタイン距離で出した、2つの文書の類似性です。全く同じ文章の場合は「0」になります。
数字が大きければ大きいほど、そのコンテンツは類似して「いない」と判断されます。 

先ほどの注意点をご留意頂き、便利に使ってもらえれば幸いです。何かありましたらFacebookページなどで一声おかけ頂ければ幸いです。

Webコンサルタント中山陽平公式サイトお悩みの方へ。一回のご相談で解決することもあります
ラウンドナップ・コンサルティングへのお問合せ方法 お電話でのご相談もお気軽に。[048-234-3361](10〜16 土日祝日除)全国対応 24時間受付 お問合せメールフォーム