данные искры читаются со строкой в ​​кавычках - PullRequest
0 голосов
/ 13 декабря 2018

У меня есть файл данных csv, как указано ниже, каждая строка завершается возвратом каретки ('\ r')

, но определенное значение текста является многопоточным полем, разделителем строк в качестве перевода строки ('\п ').как использовать опцию API источника данных spark для решения этой проблемы.

с введите описание изображения здесь

1 Ответ

0 голосов
/ 13 декабря 2018

В Spark 2.2.0 добавлена ​​поддержка анализа многострочных файлов CSV.Вы можете использовать следующее, чтобы прочитать csv с несколькими строками:

val df = spark.read
  .option("sep", ",")
  .option("quote", "")
  .option("multiLine", "true")
  .option("inferSchema", "true")
  .csv(file_name) 
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...