Скажем, у вас есть большая таблица, содержащая столбец varchar.
Как бы вы соответствовали строкам, содержащим слово 'предпочитаемый' в столбце varchar, НО данные немного зашумлены и содержат случайные орфографические ошибки, например ::100100
['$2.10 Cumulative Convertible Preffered Stock, $25 par value',
'5.95% Preferres Stock',
'Class A Preffered',
'Series A Peferred Shares',
'Series A Perferred Shares',
'Series A Prefered Stock',
'Series A Preffered Stock',
'Perfered',
'Preffered C']
Перестановки слова «предпочтительный» в описанных выше ошибках правописания, похоже, показывают семейное сходство , но у них очень мало общего. Обратите внимание, что разделение каждого слова и запуск levenshtein для каждого слова в каждой строке будет непомерно дорогим.
UPDATE:
Есть еще несколько таких примеров, например: с «ограниченным»:
['Resticted Stock Plan',
'resticted securities',
'Ristricted Common Stock',
'Common stock (restrticted, subject to vesting)',
'Common Stock (Retricted)',
'Restircted Stock Award',
'Restriced Common Stock',]