Неправильный счет при чтении CSV-файла с использованием спарка с многострочным true - PullRequest
1 голос
/ 07 апреля 2019

Я столкнулся с проблемой при чтении CSV-файла с использованием спарка с многострочным параметром как true. Есть ли какие-либо критерии, когда мы должны установить мультилинию как true или false?

Использование windows 10, scala 2.11.11 и версии spark 2.2.0.

Набор данных, который я использую для проверки: https://drive.google.com/file/d/15k7ffbyQZ8h_93t4G5Y1U2rPHSAyA9GX/view?usp=sharing

val df = sparkSession.read.format("csv")
      .option("header", "true")
      .option("inferSchema", true)
      .option("delimiter", ",")
      .option("multiLine", true)
      .option("wholeFile", true)
      .option("sep", ",")
      .option("ignoreLeadingWhiteSpace","true")
      .option("ignoreTrailingWhiteSpace","true")
      .option("encoding","utf-8")
      .option("quote","\"")
      .option("escape","\"")
      .load("C:/Notebook/work/input/Country.csv").repartition(2)

Если для параметра multiline задано значение true, счетчик равен 77. Если я установил для параметра multiline значение false, я получу правильный счет - 247

Может кто-нибудь, пожалуйста, дайте мне знать, что я здесь не так делаю?

Спасибо!

...