У меня есть фрейм данных Spark, который имеет два массива, как показано ниже:
df = spark.createDataFrame(
[((["Person", "Company", "Person", "Person"],
["John", "Company1", "Jenny", "Jessica"]))],
["Type", "Value"])
df.show()
+--------------------+--------------------+
| Type| Value|
+--------------------+--------------------+
|[Person, Company,...|[John, Company1, ...|
+--------------------+--------------------+
Я хочу преобразовать его в аккуратную версию, которая выглядит так:
df = spark.createDataFrame(
[
("Person", "John"),
("Company", "Company1"),
("Person", "Jenny"),
("Person", "Jessica"),
],
["Type", "Value"])
df.show()
+-------+--------+
| Type| Value|
+-------+--------+
| Person| John|
|Company|Company1|
| Person| Jenny|
| Person| Jessica|
+-------+--------+
PySpark или Spark SQL решений оценены. TIA.