Насколько мне известно, для этого нет встроенной функциональности, но есть способ разделить один кадр данных на несколько, основываясь на типе столбца.
Сначала давайте создадим некоторые данные:
from pyspark.sql.functions import col
from pyspark.sql.types import StructType, StructField, StringType, LongType, DateType
df = spark.createDataFrame([
(0, 11, "t1", "s1", "2019-10-01"),
(0, 22, "t2", "s2", "2019-02-11"),
(1, 23, "t3", "s3", "2018-01-10"),
(1, 24, "t4", "s4", "2019-10-01")], ["i1", "i2", "s1", "s2", "date"])
df = df.withColumn("date", col("date").cast("date"))
# df.printSchema()
# root
# |-- i1: long (nullable = true)
# |-- i2: long (nullable = true)
# |-- s1: string (nullable = true)
# |-- s2: string (nullable = true)
# |-- date: date (nullable = true)
Затем мы сгруппируем столбцы предыдущего кадра данных в словарь, где ключом будет тип столбца, а значением - список столбцов, соответствующих этому типу:
d = {}
# group cols into a dict by type
for c in df.schema:
key = c.dataType
if not key in d.keys():
d[key] = [c.name]
else:
d[key].append(c.name)
d
# {DateType: ['date'], StringType: ['s1', 's2'], LongType: ['i1', 'i2']}
Затем мы перебираем ключи (типы col) и генерируем схему вместе с соответствующим пустым кадром данных для каждого элемента словаря:
type_dfs = {}
# create schema for each type
for k in d.keys():
schema = StructType(
[
StructField(cname , k) for cname in d[k]
])
# finally create an empty df with that schema
type_dfs[str(k)] = spark.createDataFrame(sc.emptyRDD(), schema)
type_dfs
# {'DateType': DataFrame[date: date],
# 'StringType': DataFrame[s1: string, s2: string],
# 'LongType': DataFrame[i1: bigint, i2: bigint]}
Наконец, мы можем использовать сгенерированные кадры данных, получая доступ к каждомуэлемент type_dfs:
type_dfs['StringType'].printSchema()
# root
# |-- s1: string (nullable = true)
# |-- s2: string (nullable = true)