Я новичок в Pyspark, использовал pandas для большей части моей работы с данными. Я пытаюсь использовать Pyspark's
Раздвижное окно с функцией Window
для создания выборок из моего набора данных, в идеале я хочу сдвинуть мое окно с промежутком между строками.
I Мне интересно, есть ли параметр step_size
в методах rangeBetween
или rowsBetween
(я не смог найти их в их документации).
EXAMPLE: with set of rows as below (assume each row is a date)
A
B
C
D
E
F
G
H
Я хочу иметь возможность сказать, choose the first 3 rows
, оставить 2 строки между ними, а затем choose the next 3 rows
вроде: A,B,C
; C,D,E
; E,F,G
; G,H,I
et c ...
Я пробовал это:
windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)
Очевидно, что приведенный выше фрагмент только логически перемещает данные между началом и концом, но не дает мне гибкости пропуск любых строк между ними, если они логически удовлетворяют условию.
Любая помощь очень ценится. TIA!