У меня есть большой список имен (строк), которые я должен проверить друг против друга, чтобы увидеть, есть ли какие-либо опечатки.
Для этого я использовал расширение pypi python-Levenshtein для итеративного списка, причем опечатка рассматривается как сравнение с расстоянием Левенштейна, равным 1.
Я сталкиваюсь спроблема с такими именами, как 'cat 1' и 'cat 2', которые явно ~ разные кошки ~ (не опечатка), но помечены, потому что их расстояние Левенштейна равно 1.
Я пытался поставитьостановка перед рукой, чтобы проверить строку на наличие любых чисел, но, поскольку список довольно длинный, он мало что делает для эффективности.
В идеале, я ищу способ указать, что если единственным изменением символа является int (то есть «cat 1» против «cat 2»), то это не считается опечаткой
Любые предложения по другому расширению / методу приветствуются, моя главная забота - эффективность, как уже упоминалось - у меня большой список