Как выделить диапазон значений из столбца и посчитать, сколько значений попадает в каждый интервал в scala? - PullRequest
0 голосов
/ 18 февраля 2019

Как создать диапазон значений (разделить весь диапазон значений на ряд интервалов), а затем подсчитать, сколько значений попадает в каждый интервал.

У меня есть искровой DataFrame с несколькими числовыми столбцами.В каждом столбце я хочу выделить диапазон значений, а затем посчитать, сколько значений попадает в каждый интервал.

1 Ответ

0 голосов
/ 19 февраля 2019

Вы можете использовать Bucketizer Скала.Вот хороший пример: https://spark.apache.org/docs/2.2.0/ml-features.html#bucketizer

После того, как вы используете упаковщик, у вас есть фрейм данных с индексом сегмента (то есть индексы 1, 2 и 3 могут соответствовать значениям 1-5, 6-10, 11-15 соответственно).Вы можете сделать .groupBy и .agg (или использовать SQL), чтобы получить количество записей в каждой индексной группе).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...