Я создаю пустой фрейм данных spark с помощью spark.createDataFrame ([], схема), а затем добавляю строки из списков, но доступ к фрейму данных (count-collect) занимает слишком много времени по сравнению с обычным на этом фрейме данных .
Функция dataframe.count () для 1000 строк в фрейме данных, созданном из Csv-файлов, занимает 300 мс, а в пустом фрейме данных, созданном из схемы, - 4 секунды.
Вот откуда эта разница?
schema = StructType([StructField('Average_Power',FloatType(),True),
StructField('Average_Temperature',FloatType(),True),
StructField('ClientId',StringType(),True),])
df = df_event_spark = spark.createDataFrame([], schema)
df.count()
Есть ли способ создать пустой фрейм с искровыми данными более оптимизированным способом?