Как избежать разрыва строки в середине одной записи при обработке искрового файла - PullRequest
0 голосов
/ 21 марта 2019

Я обработал CSV-файл, используя искру, которая первоначально экспортировалась из oracle db. Когда я обработал этот CSV-файл, я заметил некоторые несоответствия данных на обработанных данных.

после этого я просмотрел этот CSV-файл и заметил, что некоторые строки записей разделены на несколько строк (см. Прикрепленное изображение ниже, см. 2-ю, 3-ю строки)

Пример файла CSV

Когда я обрабатываю упомянутые записи данных с использованием spark, из-за разрыва строки в середине записи одна запись берется как две записи. Я хочу сделать эти две записи строк как запись одной строки с использованием spark.

Пожалуйста, помогите мне решить эту проблему, как мне избежать прерывания строки и нужно, чтобы две строки были в одной строке

1 Ответ

2 голосов
/ 21 марта 2019

В свече есть опция multiline.Чтобы прочитать CSV, вы можете сделать это так:

val df = spark.read
    .option("multiline",true)
    .option("header", true)
    .csv("your_path/file.csv")
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...