Я использую spark.sql
, и у меня есть DataFrame
с 100 столбцами. 24 из них являются векторами, которые поддерживают горячее кодирование некоторых категориальных функций.
Я хочу обучить RandomForrestClassifier
, который выбирает функции для каждого разбиения каждого дерева.
Существует стратегия выбора признаков для каждого из разбиений, являющегося гиперпараметром модели. По умолчанию учитывается квадрат root элементов.
Мой вопрос: будет ли он выбирать элементы до или после сглаживания тех векторов, которые хранят «горячие» кодировки? Как я могу это проверить? Есть ли API для проверки количества столбцов, которые были учтены во время разделения?
Возможные ответы:
- Spark берет 10 из 100 объектов и затем выравнивает векторы, если есть были взяты любые образцы.
- Spark выравнивает все элементы и отбирает 100 из 10000 столбцов.