Escape-кавычки не работают в спарк 2.2.0 при чтении CSV - PullRequest
0 голосов
/ 25 октября 2018

Я пытаюсь прочитать файл с разделителями, разделенный табуляцией, но не могу прочитать все записи.

Вот мои входные записи:

head1   head2   head3
a   b   c
a2  a3  a4
a1  "b1 "c1

Мой код:

var inputDf = sparkSession.read
                  .option("delimiter","\t")
                  .option("header", "true")
//                  .option("inferSchema", "true")
                  .option("nullValue", "")
                  .option("escape","\"")
                  .option("multiLine", true)
                  .option("nullValue", null)
                  .option("nullValue", "NULL")
                  .schema(finalSchema)
                  .csv("file:///C:/Users/prhasija/Desktop/retriedAddresses_4.txt")
//                  .csv(inputPath)
                  .na.fill("")
//                  .repartition(4)

                  println(inputDf.count)

Вывод:

2 records

Почему он не возвращает 3 в качестве числа?

1 Ответ

0 голосов
/ 26 октября 2018

Я думаю, вам нужно добавить следующие параметры для чтения: .option ("escape", "\\") и .option ("quote", "\\")

val test = spark.read
    .option("header", true)
    .option("quote", "\\")
    .option("escape", "\\")
    .option("delimiter", ",")
    .csv(".../test.csv")

Вот тестовый CSV, на котором я его использовал:

a,b,c
1,b,a
5,d,e
5,"a,"f

Полный вывод:

scala> val test = spark.read.option("header", true).option("quote", "\\").option("escape", "\\").option("delimiter", ",").csv("./test.csv")
test: org.apache.spark.sql.DataFrame = [a: string, b: string ... 1 more field]

scala> test.show
+---+---+---+
|  a|  b|  c|
+---+---+---+
|  1|  b|  a|
|  5|  d|  e|
|  5| "a| "f|
+---+---+---+


scala> test.count
res11: Long = 3
...