Привет, я пытаюсь разбить столбец в Spark RDD.
Пример набора данных:
данные twitter
Здесь я хочу разделить столбец «Месяц» на месяц и год: Пример:
2019 10
2009 11
и далее подсчитываем все твиты за год (я знаю, как использовать здесь reduceByKey ( + ))
Как разбить столбцы в Spark RDD? Я не хочу использовать фреймы данных.
Вы можете попробовать следующее
val rdd = oldRdd.map({case(tokenType,month,count,hashTagName) => (tokenType,month.substring(0,4),month.substring(2,6),count,hashTagName)})