Я очень новичок в pySpark. Благодарим Вас за помощь. У меня есть фрейм данных
test["1"]={"vars":["x1","x2"]}
test["2"]={"vars":["x2"]}
test["3"]={"vars":["x3"]}
test["4"]={"vars":["x2","x3"]}
pdDF = pd.DataFrame(test).transpose()
sparkDF=spark.createDataFrame(pdDF)
+--------+
| vars|
+--------+
|[x1, x2]|
| [x2]|
| [x3]|
|[x2, x3]|
+--------+
Я ищу способ группировки столбцов "vars" по значениям в списке и подсчёта. Я ищу следующий результат:
+-----+---+
|count|var|
+-----+---+
| 1| x1|
| 3| x2|
| 2| x3|
+-----+---+
Может кто-нибудь посоветовать, как этого добиться?
Заранее спасибо!