Я пытаюсь удалить слова nonEngli sh из моих файлов csv, но я продолжал получать тот же ввод, что и вывод
Вот мой код:
#5. Remove nonEnglish words
def remove_nonEnglishWords(data):
words = set(nltk.corpus.words.words())
data = " ".join([w for w in nltk.wordpunct_tokenize(data) if w.lower() in words or not w.isalpha()])
return data
Input = 'participantidagentsentimentneutralendoffsetmillis3770beginoffsetmillis1110idbfca3959e39d4320adf79ba87d615974contenthi this is whats going onparticipantidcustomersentimentneutralendoffsetmillis18300beginoffsetmillis5300ida30bae411f534536abbf2a17a34bc5f6contenthey um i have a car um wait a loanparticipantidagentsentimentnegativeendoffsetmillis11290beginoffsetmillis10850idbfede82a712a41e7b720eba13137d4b7contentsorryparticipantidcustomersentimentneutralendoffsetmillis28450beginoffsetmillis19710id7a4464618bfa4436847b98978d4dc805content111 x ray colony broad 07 commonparticipantidagentsentimentneutralendoffsetmillis33460beginoffsetmillis30440idce78f60368be471780577beca4e13bc4contentokay so let me go ahead and start off really quickparticipantidcustomersentimentneutralendoffsetmillis43520beginoffsetmillis36250id9a6803d300934f2d99e504212c032306contentwhat i tell you broparticipantidagentsentimentnegativeendoffsetmillis47250beginoffsetmillis37860id2cea3f54842c477d956a4c50f1d84c18contentokay yeah so looking at that right now whats going on oh a tire blowout sorry i'
но вывод точно такой же, как вход. Я пробовал использовать его с небольшими предложениями, и это работает ..
Могут ли здесь помочь?