Агрегация искр в PySpark, если это возможно, без дополнительных операций тасования - PullRequest
0 голосов
/ 05 октября 2018

Есть ли способ, которым я могу преобразовать свой df в pyspark, который выглядит какя хочу создать дополнительный столбец и уменьшить строку emp_name до уникального уровня.

+--------+-----------+-----------+
|emp_name|class1Score|class2Score|
+--------+-----------+-----------+
|   Naman|        200|        200|
|   Jason|        100|        200|
|    Omar|        200|        200|
+--------+-----------+-----------+

1 Ответ

0 голосов
/ 05 октября 2018

Если данные уже не разделены на emp_name (а в вашем случае это не так, а для разбиения как такового потребуется как случайное перемешивание) или данные загружаются из таблицы, сгруппированной в emp_name (так же, как до этого нет)t) для преобразования данных в желаемый формат, например, с помощью pivot

df.groupBy("emp_name").pivot("class", [True, False]).sum()

, потребуется перемешивание.

...