В PySpark вы можете определить схему и прочитать источники данных с помощью этой предварительно определенной схемы, например:
Schema = StructType([ StructField("temperature", DoubleType(), True),
StructField("temperature_unit", StringType(), True),
StructField("humidity", DoubleType(), True),
StructField("humidity_unit", StringType(), True),
StructField("pressure", DoubleType(), True),
StructField("pressure_unit", StringType(), True)
])
Для некоторых источников данных можно вывести схему из источника данных и получитьфрейм данных с этим определением схемы.
Возможно ли получить определение схемы (в форме, описанной выше) из фрейма данных, где данные были выведены ранее?
df.printSchema()
печатаетсхема в виде дерева, но мне нужно повторно использовать схему, определив ее, как указано выше, чтобы я мог читать источник данных с этой схемой, которая ранее была выведена из другого источника данных.