У меня есть фрейм данных, где присутствуют непрерывные значения. Я хочу поместить эти функции в категорию. Я использую для этого KBinsDescretizer
. Чтобы найти оптимальное количество бункеров, я использовал Kmeans
"Elbow-Method" и передал результат в n_bins
в KBinsDescritizer
.
Но это правильный метод найти идеальное количество ящиков? Я посмотрел в inte rnet и наткнулся на метод "Фридмана-Диакониса", а также некоторые другие, такие как "Стерджес". Но они используются, чтобы найти оптимальное количество интервалов в гистограмме.
Какой здесь правильный путь? Мои параметры в KBinsDescritizer
:
(n_bins=(func_kmeans_elbow_method) , encode='oridnal', strategy='kmeans') # is it a good choice here to use 'kmeans' or 'quantile'