Есть ли способ отфильтровать то, что изменяется расширение python-levenshtein? - PullRequest
0 голосов
/ 13 июня 2018

У меня есть большой список имен (строк), которые я должен проверить друг против друга, чтобы увидеть, есть ли какие-либо опечатки.

Для этого я использовал расширение pypi python-Levenshtein для итеративного списка, причем опечатка рассматривается как сравнение с расстоянием Левенштейна, равным 1.

Я сталкиваюсь спроблема с такими именами, как 'cat 1' и 'cat 2', которые явно ~ разные кошки ~ (не опечатка), но помечены, потому что их расстояние Левенштейна равно 1.

Я пытался поставитьостановка перед рукой, чтобы проверить строку на наличие любых чисел, но, поскольку список довольно длинный, он мало что делает для эффективности.

В идеале, я ищу способ указать, что если единственным изменением символа является int (то есть «cat 1» против «cat 2»), то это не считается опечаткой

Любые предложения по другому расширению / методу приветствуются, моя главная забота - эффективность, как уже упоминалось - у меня большой список

...