Scala читает CSV в Dataframe с помощью Encoder - PullRequest
0 голосов
/ 25 апреля 2018

Я пытаюсь прочитать CSV-файл в кадре данных, используя кодировщик, но сталкиваюсь с некоторыми проблемами. Файл имеет следующий формат:

enter image description here

Пока нужно взять первую запись и сделать соответствующую запись:

92,61,2008-08-01T14: 45: 37Z, 90,13, "http://svnbook.red -bean.com /" "> Управление версиями с SubversionА очень хороший ресурс для контроля исходного кода в целом. Не совсем для TortoiseSVN Впрочем.

"

Отсутствует весь второй абзац. Вот что я делаю, чтобы разобрать CSV:

case class tit(Id:Int,OwnerUserId:Int,CreationDate:String,ParentID:Int,Score:Int,Body:String)

val schema=Encoders.product[tit].schema

val df=spark.read.schema(schema).csv(fileName)

1 Ответ

0 голосов
/ 29 апреля 2018

Либо попробуйте добавить .option("multiLine", true) для чтения CSV, однако это может быть не без проблем.

Или попробуйте преобразовать ввод в 1 строку на запись (используя \ n символы для разделителей строк)

...