spark sql не читает CSV-файл мультиделиматора - PullRequest
0 голосов
/ 18 июня 2020

Я пытаюсь прочитать CSV-файл multidelimter (|, ||) с помощью pyspark sql, я не могу прочитать какие-либо данные из фрейма данных, что дает 0 записей. *

Newyork|234567|company Ltd||PIN

df = spark.read.option.("sep","|").option("header","true").load(csv)

Мне нужно прочитать данные, есть ли другой способ справиться с этим?

1 Ответ

0 голосов
/ 18 июня 2020

Попробуйте это -

spark.read
      .option("sep", "|")
      .option("header", "true")
      .csv(spark.read.text("<path>").as(Encoders.STRING).map(_.replaceAll("\\|\\|", "|")))
...