разделить столбец в RDD - PullRequest
2 голосов
/ 27 мая 2020

Привет, я пытаюсь разбить столбец в Spark RDD.

Пример набора данных:

данные twitter

Здесь я хочу разделить столбец «Месяц» на месяц и год: Пример:

2019 10

2009 11

и далее подсчитываем все твиты за год (я знаю, как использовать здесь reduceByKey ( + ))

Как разбить столбцы в Spark RDD? Я не хочу использовать фреймы данных.

1 Ответ

1 голос
/ 27 мая 2020

Вы можете попробовать следующее

val rdd = oldRdd.map({case(tokenType,month,count,hashTagName) => (tokenType,month.substring(0,4),month.substring(2,6),count,hashTagName)})
...