Я выбираю 5 лучших функций из X_train
, используя
feature_importances_
.
После получения индексов этих 5 k функций в порядке убывания, я
нужно подготовить мой набор данных соответственно
X_train
форма (24000,56000)
# fit has to happen only on train
X_train_essay_tfidf = vectorizer.fit_transform(X_train['clean_essays'].values)
clf=DecisionTreeClassifier(max_depth=5)
clf = clf.fit(X_train_essay_tfidf,y_train)
importances=clf.feature_importances_
Я ожидаю, что мой окончательный набор данных будет иметь форму (24000,5000)
из лучших 5K функций