удаление неанглийских sh слов из текста в df.columns слова содержат буквы и цифры - PullRequest
0 голосов
/ 28 мая 2020

Как удалить неанглийские sh слова из текста в df.columns слова содержат буквы и цифры

Ex

df ['text']

'the интерьеры nrd studio | с днем ​​матери »нет более сильного влияния, чем мать». —Sara josepha hale ... с днем ​​матери, мама, и всем мамам во всем мире! много света natasha
0wet3bxtfl '

' но по-прежнему скучаю по тебе каждый день счастливый день матери francis mcclafferty (mccool) 9wlhju7cxf '

из двух строк выше Мне нужно удалить слово' 0wet3bxtfl 'и' 9wlhju7cxf '

1 Ответ

0 голосов
/ 28 мая 2020

Пример включает в себя сохранение некоторых строк, которые не были бы найдены в списке английских sh слов («nrd», «mcclafferty», «mccool») при удалении «0wet3bxtfl» и «9wlhju7cxf», поэтому ожидаемый результат, вероятно, лучше всего достигается путем удаления любых непробельных последовательностей, которые содержат либо букву, за которой следует di git, либо di git, за которой следует буква (вместе с любыми последующими пробелами), независимо от того, являются ли слова "Engli *" 1008 * "или нет.

Следующее будет делать это:

import re

...

filtered = re.sub('[^\s]*(\d[a-zA-Z]|[a-zA-Z]\d)[^\s]* *', '', df['text'])
...