Вот еще одно решение вашей проблемы с использованием функции stack (). Это может быть немного проще, конечно, с ограничением, что вы должны явно указывать имена столбцов.
Надеюсь, это поможет!
# set your dataframe
df = spark.createDataFrame(
[(101, 102, 'MTD0001', 1, 10),
(101, 102, 'MTD0002', 2, 12),
(101, 102, 'MTD0003', 3, 13)],
['dim1', 'dim2', 'byvar', 'v1', 'v2']
)
df.show()
+----+----+-------+---+---+
|dim1|dim2| byvar| v1| v2|
+----+----+-------+---+---+
| 101| 102|MTD0001| 1| 10|
| 101| 102|MTD0002| 2| 12|
| 101| 102|MTD0003| 3| 13|
+----+----+-------+---+---+
result = df.selectExpr('dim1',
'dim2',
'byvar',
"stack(2, 'v1', v1, 'v2', v2) as (names, values)")
result.show()
+----+----+-------+-----+------+
|dim1|dim2| byvar|names|values|
+----+----+-------+-----+------+
| 101| 102|MTD0001| v1| 1|
| 101| 102|MTD0001| v2| 10|
| 101| 102|MTD0002| v1| 2|
| 101| 102|MTD0002| v2| 12|
| 101| 102|MTD0003| v1| 3|
| 101| 102|MTD0003| v2| 13|
+----+----+-------+-----+------+
Если мы хотим динамически установить столбцы в стек, мы просто необходимо установить неизмененные столбцы, в вашем примере это dim1 , dim2 и byvar и создать предложение стека, используя for-l oop.
# set static columns
unaltered_cols = ['dim1', 'dim2', 'byvar']
# extract columns to stack
change_cols = [n for n in df.schema.names if not n in unaltered_cols]
cols_exp = ",".join(["'" + n + "'," + n for n in change_cols])
# create stack sentence
stack_exp = "stack(" + str(len(change_cols)) +',' + cols_exp + ") as (names, values)"
# print final expression
print(stack_exp)
# --> stack(2,'v1',v1,'v2',v2) as (names, values)
# apply transformation
result = df.selectExpr('dim1',
'dim2',
'byvar',
stack_exp)
result.show()
+----+----+-------+-----+------+
|dim1|dim2| byvar|names|values|
+----+----+-------+-----+------+
| 101| 102|MTD0001| v1| 1|
| 101| 102|MTD0001| v2| 10|
| 101| 102|MTD0002| v1| 2|
| 101| 102|MTD0002| v2| 12|
| 101| 102|MTD0003| v1| 3|
| 101| 102|MTD0003| v2| 13|
+----+----+-------+-----+------+
Если мы запустим тот же код, но с другим фреймом данных, вы получите желаемый результат.
df = spark.createDataFrame(
[(101, 102, 'MTD0001', 1, 10, 4),
(101, 102, 'MTD0002', 2, 12, 5),
(101, 102, 'MTD0003', 3, 13, 5)],
['dim1', 'dim2', 'byvar', 'v1', 'v2', 'v3']
)
# Re-run the code to create the stack_exp before!
result = df.selectExpr('dim1',
'dim2',
'byvar',
stack_exp)
result.show()
+----+----+-------+-----+------+
|dim1|dim2| byvar|names|values|
+----+----+-------+-----+------+
| 101| 102|MTD0001| v1| 1|
| 101| 102|MTD0001| v2| 10|
| 101| 102|MTD0001| v3| 4|
| 101| 102|MTD0002| v1| 2|
| 101| 102|MTD0002| v2| 12|
| 101| 102|MTD0002| v3| 5|
| 101| 102|MTD0003| v1| 3|
| 101| 102|MTD0003| v2| 13|
| 101| 102|MTD0003| v3| 5|
+----+----+-------+-----+------+