Как создать разные RDDS на основе разных данных записи - PullRequest
0 голосов
/ 01 сентября 2018

Я пытаюсь создать разные RDD на основе входного файла с разными типами записей, определенными в первых двух байтах

Входной файл имеет

00~08-30-2018~001
01~Amwell~000048.00~by~0000~test
02~002~145~West ~23.78
99~001~004

Как создать RDD на основе первых 2 байтов?

1 Ответ

0 голосов
/ 01 сентября 2018
val rdd = sc.textFile("yourtestdatapath")
val rdd01 = rdd.filter(i => i.split("~")(0) == "01")
val rdd02 = rdd.filter(i => i.split("~")(0) == "02")

// rdd01 будет содержать данные, начинающиеся с 01 // rdd02 будет содержать данные, начинающиеся с 02

enter image description here

...