Получение Vector.toarray () как 0 в векторизаторе Tfidf - PullRequest
0 голосов
/ 07 февраля 2019

Я скачал текстовый файл из интернета, и я пытаюсь очистить и создать векторы Tfidf.

Ниже приведен код, я получаю все 0 в массиве (окончательный вариант).не понимая, если это правильно или неправильно.

file = 'C:/Study/Machine Learning/Dataset/NLP_Data_s.txt'
text = open(file,'rt')
words = text.read()
text.close()
lower = str.lower(words)# convert all words to lower case
tokens = word_tokenize(lower)# tokenize words
table = str.maketrans("","",string.punctuation)# remove punctuation on 
tokens
remove_punct = [w.translate(table) for w in tokens]# remove punctuation on 
tokens
stop_words = set(stopwords.words('english'))
remove_stop = [word for word in remove_punct if not word in stop_words]# 
removed stop words
porter = PorterStemmer()
Stemmed = [porter.stem(word) for word in remove_stop]
vectorizer = TfidfVectorizer()
vectorizer.fit(Stemmed)
print(vectorizer.get_feature_names())
print(vectorizer.vocabulary_)
print(vectorizer.idf_)``
vector= vectorizer.transform(Stemmed)
print(vector.shape)
print(type(vector))
print(vector.toarray())
...