Я пытаюсь прочитать CSV-файл, используя спарк-фрейм данных в кирпичах данных. CSV-файл содержит двойные кавычки с разделенными запятыми столбцами. Я попытался с приведенным ниже кодом и не смог прочитать файл CSV. Но если я проверю файл в datalake, я смогу увидеть файл.
Вход и выход следующие:
df = spark.read.format("com.databricks.spark.csv")\
.option("header","true")\
.option("quoteAll","true")\
.option("escape",'"')\
.csv("mnt/A/B/test1.csv")
Данные входного файла: заголовок:
"A","B","C"
"123","dss","csc"
"124","sfs","dgs"
Выход:
"A"|"B"|"C"|