У меня есть датафрейм для панд, и я уже выполнил групповую работу. Сейчас я меняю процесс и использую pyspark.
Groupby в пандах и pyspark отличается (количество строк).
Кто-нибудь испытывал это?