Ravi 23 января 2020 2

Обработка окна без раздела в огромном наборе данных

Ravi / 23 января 2020

У меня есть такой набор данных, как

col1, col2, col3, timestamp
8,XXXX,XXXX,time
12,XXXX,XXXX,time
15,XXXX,XXXX,time
18,XXXX,XXXX,time

(порядок сортировки - время здесь) Я пытаюсь создать новый столбец на основе предыдущей строки. Мой подход заключается в следующем:

w = Window.orderBy('timestamp')

df.select('*',when())

, когда и иначе logi c здесь, ссылаясь на отставание для предыдущей строки

Вопрос здесь в том, как искра обрабатывает это ?? , Так как размер набора данных огромен, более 10 миллиардов строк, я просто хочу понять, что происходит с оконной функцией без раздела. Спасибо!

1 Ответ

...