Удаление неанглийских sh слов с помощью nltk не работает - PullRequest
0 голосов
/ 11 июля 2020

Я пытаюсь удалить слова nonEngli sh из моих файлов csv, но я продолжал получать тот же ввод, что и вывод

Вот мой код:

  #5. Remove nonEnglish words
  def remove_nonEnglishWords(data):
     words = set(nltk.corpus.words.words())
     data = " ".join([w for w in nltk.wordpunct_tokenize(data) if w.lower() in words or not w.isalpha()])
     return data

Input = 'participantidagentsentimentneutralendoffsetmillis3770beginoffsetmillis1110idbfca3959e39d4320adf79ba87d615974contenthi this is whats going onparticipantidcustomersentimentneutralendoffsetmillis18300beginoffsetmillis5300ida30bae411f534536abbf2a17a34bc5f6contenthey um i have a car um wait a loanparticipantidagentsentimentnegativeendoffsetmillis11290beginoffsetmillis10850idbfede82a712a41e7b720eba13137d4b7contentsorryparticipantidcustomersentimentneutralendoffsetmillis28450beginoffsetmillis19710id7a4464618bfa4436847b98978d4dc805content111 x ray colony broad 07 commonparticipantidagentsentimentneutralendoffsetmillis33460beginoffsetmillis30440idce78f60368be471780577beca4e13bc4contentokay so let me go ahead and start off really quickparticipantidcustomersentimentneutralendoffsetmillis43520beginoffsetmillis36250id9a6803d300934f2d99e504212c032306contentwhat i tell you broparticipantidagentsentimentnegativeendoffsetmillis47250beginoffsetmillis37860id2cea3f54842c477d956a4c50f1d84c18contentokay yeah so looking at that right now whats going on oh a tire blowout sorry i'

но вывод точно такой же, как вход. Я пробовал использовать его с небольшими предложениями, и это работает ..

Могут ли здесь помочь?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...