Идея состоит в том, чтобы выполнить одномерный выбор объектов :
- Для каждой функции вы вычисляете какую-то статистику (в вашем случае числовой-statistic)
- Создайте набор (надеюсь) наиболее важных функций, комбинируя 1) с некоторым методом выбора ( SelectKBest , SelectPercentile )
Итак, возвращаясь к вашему вопросу, я думаю, что вы неправильно поняли следующий пункт:
- Вы всегда запускаете тест chi2 для всех функций, а затем сохраняете только те, которые имелисамая высокая chi2-статистика (= самое низкое значение p).Вы не указываете пороговое значение, поскольку ваша цель - сохранить наиболее информативных функций .Если вы настаиваете и действительно хотите использовать пороговое значение отсечки, вам придется написать собственный Transformer, и совершенно неясно, каким должно быть это предельное значение (даже применительно к p-значениям).