Я работал со случайными моделями леса и дерева решений и прочитал, что параметр "maxBins" используется для создания секций по числовым переменным, упорядочивая переменную (см .: https://spark.apache.org/docs/2.2.0/mllib-decision-tree.html).
Мне нужно понять, как работает этот параметр, потому что я чувствую, что информация в документации недостаточно хороша.
В документе говорится: «Сортировка значений объектов является дорогостоящей для больших распределенных наборов данных. Эта реализация вычисляет приблизительный набор кандидатов для разделения, выполняя квантильный расчет для выборочной фракции данных. Упорядоченные разбиения создают« ячейки »и максимум количество таких ячеек можно указать с помощью параметра maxBins. "
Но как окончательно разделить переменную, используя ячейки?
Я бы хотел знать, как работает maxBins, на любом простом примере.
Спасибо !!