Раздвижное окно с промежутками между ними в Pyspark Data Frame / Spark SQL - PullRequest
0 голосов
/ 13 февраля 2020

Я новичок в Pyspark, использовал pandas для большей части моей работы с данными. Я пытаюсь использовать Pyspark's Раздвижное окно с функцией Window для создания выборок из моего набора данных, в идеале я хочу сдвинуть мое окно с промежутком между строками.

I Мне интересно, есть ли параметр step_size в методах rangeBetween или rowsBetween (я не смог найти их в их документации).

EXAMPLE: with set of rows as below (assume each row is a date)

A
B
C
D
E
F
G
H

Я хочу иметь возможность сказать, choose the first 3 rows, оставить 2 строки между ними, а затем choose the next 3 rows

вроде: A,B,C; C,D,E; E,F,G; G,H,I et c ...

Я пробовал это:

windowSpec = Window.orderBy(func.col("column")).rangeBetween(start, end)

Очевидно, что приведенный выше фрагмент только логически перемещает данные между началом и концом, но не дает мне гибкости пропуск любых строк между ними, если они логически удовлетворяют условию.

Любая помощь очень ценится. TIA!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...