Ниже приведено подмножество моего набора данных. Я пытаюсь очистить свой набор данных, используя Porter stemmer
, который доступен в пакете nltk
. Я хотел бы отбросить столбцы, которые похожи по своим основам, например, «отказаться», «покинуть», «отказаться» следует просто оставить в своем наборе данных. Ниже приведен код, который я пробую, где я могу увидеть слова / столбцы, которые основаны на Но я не уверен, как отбросить эти столбцы? Я уже разбил токены и удалил знаки препинания из корпуса.
Примечание: Я новичок в Python
и Textmining
.
Подмножество набора данных
{
'aaaahhhs':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'aahs':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'aamir':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'aardman':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'aaron':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'abandon':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'abandoned':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'abandoning':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'abandonment':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
},
'abandons':{
0:0,
1:0,
2:0,
3:0,
4:0,
5:0
}
}
код пока ..
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
for w in clean_df.columns:
print(ps.stem(w))