Объект «Получение ряда» не имеет атрибута «split», «произошел в индексе при удалении частых слов из твитов - PullRequest
0 голосов
/ 26 октября 2018

Я пытаюсь проанализировать настроения из поста в твиттере. Я новичок в анализе настроений. На этапе предварительной обработки текста я столкнулся с проблемой удаления частых слов из твитов. Я хочу удалить самые частые слова из твитов, поэтому я посчитал самые частые слова в твитах по

freq=pd.Series(''.join(traindata['tweet']).split()).value_counts()[:10]

тогда я преобразовал серию частот в список

freq=list(freq.index)

До этого момента мой результат показывает enter image description here

Для фильтрации моего столбца twitter_word путем удаления часто используемых слов. Я использовал ниже код

traindata['tweet']=traindata.apply(lambda x:" ".join(x for x in x.split() if x not in freq))

и у меня ошибка ниже

Файл "C: \ Users \ codemen \ Anaconda3 \ lib \ site-packages \ pandas \ core \ generic.py", строка 3614, в __getattr__ возвращаемый объект .__ getattribute __ (self, name) AttributeError: («Объект« Series »не имеет атрибута« split »,« произошел с идентификатором индекса »)

пожалуйста, помогите мне разобраться в проблеме. Спасибо

1 Ответ

0 голосов
/ 26 октября 2018

Полагаю, вам нужно указать столбец для apply, иначе цикл всех столбцов DataFrame:

f = lambda x:" ".join(x for x in x.split() if x not in freq)
traindata['tweet'] = traindata['tweet'].apply(f)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...