Вы можете использовать функцию monotonically_increasing_id()
для создания нового столбца с серийным номером, а затем использовать функцию filter
для фильтрации в строке
from pyspark.sql.functions import *
ds.withColumn('sn', monotonically_increasing_id())\
.filter(col('sn') == 1)\
.drop('sn')\
.show(truncate=False)
, что даст вам
+-----+-----+
|Col a|Col b|
+-----+-----+
|John |McC |
+-----+-----+
Примечание: monotonically_increasing_id будет генерировать увеличивающиеся номера заказов, но не гарантируется генерация серийных номеров, начиная с 0.
Подводя итог, функции filter()
и select()/where()
представляют собой два способа выбора строк в кадре данных
Надеюсь, ответ полезен