Я столкнулся с проблемой при чтении CSV-файла с использованием спарка с многострочным параметром как true. Есть ли какие-либо критерии, когда мы должны установить мультилинию как true или false?
Использование windows 10, scala 2.11.11 и версии spark 2.2.0.
Набор данных, который я использую для проверки:
https://drive.google.com/file/d/15k7ffbyQZ8h_93t4G5Y1U2rPHSAyA9GX/view?usp=sharing
val df = sparkSession.read.format("csv")
.option("header", "true")
.option("inferSchema", true)
.option("delimiter", ",")
.option("multiLine", true)
.option("wholeFile", true)
.option("sep", ",")
.option("ignoreLeadingWhiteSpace","true")
.option("ignoreTrailingWhiteSpace","true")
.option("encoding","utf-8")
.option("quote","\"")
.option("escape","\"")
.load("C:/Notebook/work/input/Country.csv").repartition(2)
Если для параметра multiline задано значение true, счетчик равен 77.
Если я установил для параметра multiline значение false, я получу правильный счет - 247
Может кто-нибудь, пожалуйста, дайте мне знать, что я здесь не так делаю?
Спасибо!