Ответ должен работать так, как вы хотите, однако может быть место для некоторой оптимизации:
from pyspark.sql.window import Window as W
test_df = spark.createDataFrame([
], ("id", "num"))
test_df = test_df.withColumn("idx", monotonically_increasing_id()) # create temporary ID because window needs an ordered structure
w = W.orderBy("idx")
get_last= when(lag("id", 1).over(w) == col("id"), False).otherwise(True) # check if the previous row contains the same id
test_df.withColumn("changed",get_last).filter(col("changed")).select("id","num").show() # only select the rows with a changed ID
| id|num|
| 2|3.0|
| 3|6.0|
| 2|9.0|
| 4|7.0|