Вам нужно будет тщательно сбалансировать пороговые значения в текстовом сходстве и числовом сходстве.Простого решения не будет, и если у вас нет действительно больших данных, ручной подход может быть лучшим.
Текстовое сходство коротких строк крайне ненадежно.
Например: "собака"и" туман "отличаются только на одну букву, но это очень маловероятные опечатки.У них есть расстояние 1 Левенштейна, наименьшее ненулевое значение!Из-за этого, если вы полагаетесь на Левенштейна, у вас будет много ложных срабатываний - хорошо, если вы проверите их вручную, но не для автоматической обработки.
Так что, как минимум, вам нужно использовать что-то, что знаето (а) существующих словах, которые вряд ли написаны с ошибками, (б) общепринятых орфографических ошибок и (в) фонетическом сходстве для оценки вероятности того, что слово написано с ошибкой, (г) клавиатурном сходстве, вероятности того, что слово опечатано ...