PySpark RandomForrestClassifier featureSelectionStrategy при однократном кодировании с разреженным вектором - PullRequest
0 голосов
/ 21 февраля 2020

Я использую spark.sql, и у меня есть DataFrame с 100 столбцами. 24 из них являются векторами, которые поддерживают горячее кодирование некоторых категориальных функций.

Я хочу обучить RandomForrestClassifier, который выбирает функции для каждого разбиения каждого дерева.

Существует стратегия выбора признаков для каждого из разбиений, являющегося гиперпараметром модели. По умолчанию учитывается квадрат root элементов.

Мой вопрос: будет ли он выбирать элементы до или после сглаживания тех векторов, которые хранят «горячие» кодировки? Как я могу это проверить? Есть ли API для проверки количества столбцов, которые были учтены во время разделения?

Возможные ответы:

  1. Spark берет 10 из 100 объектов и затем выравнивает векторы, если есть были взяты любые образцы.
  2. Spark выравнивает все элементы и отбирает 100 из 10000 столбцов.
...