Я пытаюсь создать пустой фрейм данных PySpark в том случае, если его раньше не было.У меня также есть список имен столбцов.Можно ли определить пустой фрейм данных PySpark без ручного назначения?
У меня есть список столбцов final_columns
, который я могу использовать для выбора подмножества столбцов в кадре данных.Однако в случае, когда этот фрейм данных не существует, я хотел бы создать пустой фрейм данных с такими же столбцами в final_columns
.Я хотел бы сделать это без назначения имен вручную.
final_columns = ['colA', 'colB', 'colC', 'colD', 'colE']
try:
sdf = sqlContext.table('test_table')
except:
print("test_table is empty")
mySchema = StructType([ StructField("colA", StringType(), True),
StructField("colB", StringType(), True),
StructField("colC", StringType(), True),
StructField("colD", StringType(), True),
StructField("colE", DoubleType(), True) ])
sdf = sqlContext.createDataFrame(spark.sparkContext.emptyRDD(),schema=mySchema)
sdf = sdf.select(final_columns)