Пользовательская сортировка в фреймах pyspark - PullRequest
1 голос
/ 05 марта 2020

Есть ли рекомендуемые методы для реализации пользовательского порядка сортировки для категориальных данных в pyspark? В идеале я ищу функциональность, которую предлагает pandas категориальный тип данных.

1 Ответ

1 голос
/ 06 марта 2020

Вы можете использовать orderBy и определить свой заказ, используя when:

from pyspark.sql.functions col, when

df.orderBy(when(col("Speed") == "Super Fast", 1)
           .when(col("Speed") == "Fast", 2)
           .when(col("Speed") == "Medium", 3)
           .when(col("Speed") == "Slow", 4)
           )
...