Как удалить слова, состоящие из одинаковых повторяющихся букв - PullRequest
0 голосов
/ 31 марта 2019

Столбец dataframe содержит несколько слов с повторяющимися буквами. Я хочу удалить слова, которые полностью состоят из одинаковых букв, из столбца данных и сохранить первое вхождение буквы в других случаях, когда буквы повторяются более 2 раз подряд. DF-

id   text
1     aaaa
2     bb
3     wwwwwwww
4     Hellooooo
5     See youuuu

выход

id   text
1     
2     
3   
4    Hello
5    See you 

1 Ответ

0 голосов
/ 31 марта 2019

если вы не любите регулярные выражения так же, как я, вы можете пойти в старую школу, это может быть неэффективно, но вы получите идею

s = 'Seee youuuu sooooon'

def word_precess(s):
    c = ''
    flag = ''
    counter = 0
    for i, letter in enumerate(s):
        if letter == flag:
            counter += 1
            if counter > 2:
                continue  # start the loop from beginning
        else:
            flag = letter
            counter = 1
        c = c + letter

    return c

print(word_precess(s))

output >>>

See youu soon

примечание: в результате получилось «Youu» с двойным «u», а не «До скорого свидания» просто потому, что я не мог заставить сценарий понимать слова, означающие.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...