Чтение CSV-файлов с отсутствующими столбцами и случайным порядком столбцов - PullRequest
0 голосов
/ 04 июля 2018

У меня есть схема, которую я хочу применить к файлам csv в Databricks. Файлы csv могут содержать 6 столбцов (a, b, c, d, e, f), которые могут появляться в случайном порядке в файлах csv. Может также случиться, что один или несколько столбцов отсутствуют. Таким образом, CSV-файлы с этими заголовками будут действительными

a,b,c,d,e,f
f,e,d,c,a,b
a,b,c
d,e,f

Я могу создать собственную схему, но она не обрабатывает другой порядок, а также пропускает столбцы. Они применяются последовательно. Любые идеи о том, как это можно решить?

customSchema = StructType() \
  .add("a", DoubleType(), True) \
  .add("b", DoubleType(), True) \
  .add("c", DoubleType(), True) \
  .add("d", DoubleType(), True) \
  .add("e", DoubleType(), True) \
  .add("f", DoubleType(), False)


data = sqlContext.read.format("csv") \
  .option("header", "true") \
  .option("delimiter", ",") \
  .schema(customSchema) \
  .load("*.csv")

1 Ответ

0 голосов
/ 04 июля 2018

Вы можете прочитать файл csv без указания схемы, а затем сформировать кадр данных так, как вам нравится. В Scala это будет выглядеть следующим образом:

val df = spark.read.format("csv")
    .option("header", "true")
    .load("x.csv")

val cols = Seq("a", "b", "c", "d", "e", "f")

/* Here I select and cast the column if it exists. 
   I create a null column otherwise */
val shaped_df = df.select( cols.map(c=> 
    if(df.columns.contains(c)) 
        col(c).cast("double") 
    else 
        lit(null).cast("double").alias(c)
) :_* )

shaped_df.printSchema()
root
    |-- a: double (nullable = true)
    |-- b: double (nullable = true)
    |-- c: double (nullable = true)
    |-- d: double (nullable = true)
    |-- e: double (nullable = true)
    |-- f: double (nullable = true)
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...