Spark требует агрегации выражения для сгруппированных данных.
Если вам не нужны какие-либо агрегации для сгруппированных данных, тогда мы можем иметь некоторую фиктивную агрегацию, например , сначала, count. ..et c и удалите столбец из .select
, как показано ниже:
import pyspark
df_2 = orders.where("order_item_order_id == 2").groupby("order_item_order_id").agg(first(lit("1"))).select("order_item_order_id")
#or
df_2 = orders.where("order_item_order_id == 2").groupby("order_item_order_id").count().select("order_item_order_id")
df_2.persist(pyspark.StorageLevel.MEMORY_ONLY)