У меня есть входной файл, который имеет следующую структуру,
col1, col2, col3
line1filed1,line1filed2.1\
line1filed2.2, line1filed3
line2filed1,line2filed2.1\
line2filed2.2, line2filed3
line3filed1, line3filed2, line3filed3
line4filed1,line4filed2,
line5filed1,,line5filed3
Выходной кадр данных должен быть,
col1, col2, col3
[line1filed1,line1filed2.1 line1filed2.2, line1filed3]
[line2filed1,line2filed2.1 line2filed2.2, line2filed3]
[line3filed1, line3filed2, line3filed3]
[line4filed1,line4filed2, null]
[line5filed1, null, line5filed3]
Я пытаюсь сделать
spark
.read
.option("multiLine", "true")
.option("escape", "\\")
.csv("path to file")
Некоторые решения предлагают перейти на wholeTextFiles
, но также упоминается, что wholeTextFiles
не является оптимальным решением.
Каков будет правильный способ сделать это?
PS: у меня есть входной производственный файл 50 ГБ.