Чи-квадрат не имеет определенного диапазона c результата, поэтому заранее определить порог сложно. Обычно, что вы можете сделать, это отсортировать переменные в зависимости от их значений p, логика c состоит в том, что более низкие значения p лучше, потому что они подразумевают более высокую корреляцию между объектами и целевой переменной (мы хотим отбросить объекты, которые являются независимыми т.е. не предикторы целевой переменной). В этом случае вы все равно должны решить, сколько функций сохранить, и это гиперпараметр, который вы можете настроить вручную или даже лучше, используя поиск по сетке.
Помните, что вы можете избежать выбора вручную, sklearn реализует уже функцию SelectKBest , чтобы выбрать лучшие k функций на основе квадрата хи, вы можете использовать его следующим образом:
from sklearn.feature_selection import SelectKBest, chi2
X_new = SelectKBest(chi2, k=2).fit_transform(X, y)
Но если по какой-либо причине вы хотите положиться исключительно на необработанном значении chi2 вы можете рассчитать минимальное и максимальное значения между переменными, а затем разделить интервал на n шагов, чтобы протестировать поиск по сетке.