Я бы предложил поискать библиотеки типа pyenchant
, но для того, что именно вы просите, приведен фрагмент кода.Он не будет делать именно то, что вы пытаетесь сделать, но он преобразует все множественные вхождения символов в один.тогда у вас может быть словарь для замены / игнорирования правильных слов.
clean_words=[]
for w in words:
w = re.sub(r'[^\w\s]|(.)(?=\1)', '', w)
clean_words.append(w)
Как я уже упоминал, в то время как looooove
становится love
, оно также составит cool
до col
.Для таких слов, как «круто», вам понадобится поиск или словарь, чтобы игнорировать обработку.