Как вернуть слова, содержащие повторяющиеся буквы, в исходную английскую форму? - PullRequest
0 голосов
/ 11 февраля 2019

В настоящее время я работаю над проектом "Twitter Sentimental Analysis".Я столкнулся с проблемой, когда мне нужно вернуть слова, содержащие повторяющиеся буквы.Например, «coooooool» следует заменить на «cool».Я думал об использовании регулярных выражений, но слова, которые нужно вернуть, имеют большее значение.Не могли бы вы помочь мне, предоставив способ решить мою проблему.

1 Ответ

0 голосов
/ 11 февраля 2019

Я бы предложил поискать библиотеки типа pyenchant, но для того, что именно вы просите, приведен фрагмент кода.Он не будет делать именно то, что вы пытаетесь сделать, но он преобразует все множественные вхождения символов в один.тогда у вас может быть словарь для замены / игнорирования правильных слов.

clean_words=[]    
for w in words:
    w = re.sub(r'[^\w\s]|(.)(?=\1)', '', w)
    clean_words.append(w)

Как я уже упоминал, в то время как looooove становится love, оно также составит cool до col.Для таких слов, как «круто», вам понадобится поиск или словарь, чтобы игнорировать обработку.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...