люди!У меня проблема с Python.Кто-нибудь может мне помочь?Я начинающий с python
У меня есть датафрейм с информацией, и я работаю со строковым полем.
Пример столбца: Столбец фрейма данных
Код:
набор данных
data = pd.read_csv("dataset.csv",sep=';',encoding='latin-1',error_bad_lines=False)
удалить нули
data['campo'].dropna(inplace=True)
удалить пробелы
data['campo'] = data['campo'].str.lstrip()
data['campo'] = data['campo'].str.rstrip()
удалить кавычки
data['campo'] = data['campo'].str.replace('ú','u')
data['campo'] = data['campo'].str.replace('ó','o')
data['campo'] = data['campo'].str.replace('í','i')
data['campo'] = data['campo'].str.replace('é','e')
data['campo'] = data['campo'].str.replace('á','a')
для понижения
data['campo'] = data['campo'].str.lower()
удаление знаков препинания
data['campo'] = data['campo'].str.replace(r'[^\w\s]','')
токенизация
data['campo']= data['campo'].str.split()
до тех пор, пока не будет получен результат: Предварительный просмотр
удалить стоп-слова
import nltk
nltk.download('stopwords')
stop_words = set(stopwords.words("spanish"))
#funcion
def remove_stops(row):
my_list = row['campo']
meaningful_words = [w for w in my_list if not w in stop_words]
return (meaningful_words)
data['campo'] = data.apply(remove_stops, axis=1)
Train and Test
Train_X, Test_X, Train_Y, Test_Y = model_selection.train_test_split(data['campo'],data['Target'],test_size=0.3)
Vectorizer
Tfidf_vect = TfidfVectorizer(max_features=5000)
Tfidf_vect.fit(data['campo'])
и после этого показать мне ошибку:
ошибка
AttributeError: у объекта 'list' нет атрибута 'lower'
Я не знаю почему.Я новичок в Python, купить я не знаю, как решить.
Как решить?Благодарю .Извините за мой английский!