Как выбрать оптимальное количество ячеек в KBinsDiscretizer? - PullRequest
0 голосов
/ 27 мая 2020

У меня есть фрейм данных, где присутствуют непрерывные значения. Я хочу поместить эти функции в категорию. Я использую для этого KBinsDescretizer. Чтобы найти оптимальное количество бункеров, я использовал Kmeans "Elbow-Method" и передал результат в n_bins в KBinsDescritizer.

Но это правильный метод найти идеальное количество ящиков? Я посмотрел в inte rnet и наткнулся на метод "Фридмана-Диакониса", а также некоторые другие, такие как "Стерджес". Но они используются, чтобы найти оптимальное количество интервалов в гистограмме.

Какой здесь правильный путь? Мои параметры в KBinsDescritizer:

(n_bins=(func_kmeans_elbow_method) , encode='oridnal', strategy='kmeans')  # is it a good choice here to use 'kmeans' or 'quantile'
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...