Я работаю над моделью машинного обучения 1,456,354 X 53
.Я хотел сделать выбор функции для моего набора данных.Я знаю, как сделать выбор функции в python
, используя следующий код.
from sklearn.feature_selection import RFECV,RFE
logreg = LogisticRegression()
rfe = RFE(logreg, step=1, n_features_to_select=28)
rfe = rfe.fit(df.values,arrythmia.values)
features_bool = np.array(rfe.support_)
features = np.array(df.columns)
result = features[features_bool]
print(result)
Однако я не смог найти ни одной статьи, которая могла бы показать, как я могу выполнить рекурсивный выбор функции в pyspark
.
Я попытался импортировать библиотеки sklearn
в pyspark, но это дало мне модуль sklearn с ошибкой не найден.Я запускаю pyspark в кластере Google DataProc.
Может кто-нибудь помочь мне добиться этого в pyspark