Я новичок в Spark, извините, если этот вопрос кажется вам легким. Я пытаюсь найти решение, подобное Spark, но не могу придумать, как это сделать.
Мой DataSet выглядит следующим образом:
+----------------------+
|input |
+----------------------+
|debt ceiling |
|declaration of tax |
|decryption |
|sweats |
|ladder |
|definite integral |
Мне нужно рассчитать распределение строк по длине, например:
1-й вариант:
- 500 строк содержат 1 и более слов
- 120 строк содержат 2 и более слов
- 70 строк содержат 2 и более слов
2-й вариант:
- 300 строк содержат 1 слово
- 250 строк содержат 2 слова
- 220 строк содержат 3 слова
- 270 строк содержат 4 и более слов
Есть ли возможное решение с использованием функций Java Spark?
Все, что я могу придумать, - это написать какой-то UDF, который будет иметь вещательный счетчик, но я, вероятно, что-то упускаю, так как должен быть лучший способ сделать это в искре.