В Python у меня есть существующий Spark DataFrame, который включает 135 ~ столбцов, называемых sc_df1
. У меня также есть Pandas DataFrame с точно такими же столбцами, которые я хочу преобразовать в Spark DataFrame, а затем unionByName
два Spark DataFrames. то есть, sc_df1.unionByName(sc_df2)
.
Кто-нибудь знает, как использовать схему sc_df1
при преобразовании Pandas DataFrame в Spark DataFrame, так что два Spark DataFrames будут иметь одну и ту же схему при объединении?
Я знаю, что это не работает, но вот, по сути, то, что я пытаюсь сделать:
sc_df2 = sc.createDataFrame(df2, schema = sc_df1.dtypes)