Итак, я читаю в CSV-файл и получаю слова в нем.Я пытаюсь удалить стоп-слова.Вот мой код
import pandas as pd
from nltk.corpus import stopwords as sw
def loadCsv(fileName):
df = pd.read_csv(fileName, error_bad_lines=False)
df.dropna(inplace = True)
return df
def getWords(dataframe):
words = []
for tweet in dataframe['SentimentText'].tolist():
for word in tweet.split():
word = word.lower()
words.append(word)
return set(words) #Create a set from the words list
def removeStopWords(words):
for word in words: # iterate over word_list
if word in sw.words('english'):
words.remove(word) # remove word from filtered_word_list if it is a stopword
return set(words)
df = loadCsv("train.csv")
words = getWords(df)
words = removeStopWords(words)
В этой строке
if word in sw.words('english'):
Я получаю следующую ошибку.
исключение: нет описания
Далее я попытаюсь убрать пунктуацию, любые указатели для этого тоже будут хороши.Буду признателен за любую оказанную помощь.
РЕДАКТИРОВАТЬ
def removeStopWords(words):
filtered_word_list = words #make a copy of the words
for word in words: # iterate over words
if word in sw.words('english'):
filtered_word_list.remove(word) # remove word from filtered_word_list if it is a stopword
return set(filtered_word_list)