Question

Есть ли способ, которым я могу преобразовать свой df в pyspark, который выглядит какя хочу создать дополнительный столбец и уменьшить строку emp_name до уникального уровня.

+--------+-----------+-----------+
|emp_name|class1Score|class2Score|
+--------+-----------+-----------+
|   Naman|        200|        200|
|   Jason|        100|        200|
|    Omar|        200|        200|
+--------+-----------+-----------+

user10462628 · Answer 1 · 05 октября 2018

Если данные уже не разделены на emp_name (а в вашем случае это не так, а для разбиения как такового потребуется как случайное перемешивание) или данные загружаются из таблицы, сгруппированной в emp_name (так же, как до этого нет)t) для преобразования данных в желаемый формат, например, с помощью pivot

df.groupBy("emp_name").pivot("class", [True, False]).sum()

, потребуется перемешивание.

Агрегация искр в PySpark, если это возможно, без дополнительных операций тасования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Агрегация искр в PySpark, если это возможно, без дополнительных операций тасования

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы