Обработка окна без раздела в огромном наборе данных - PullRequest
0 голосов
/ 23 января 2020

У меня есть такой набор данных, как

col1, col2, col3, timestamp
8,XXXX,XXXX,time
12,XXXX,XXXX,time
15,XXXX,XXXX,time
18,XXXX,XXXX,time

(порядок сортировки - время здесь) Я пытаюсь создать новый столбец на основе предыдущей строки. Мой подход заключается в следующем:

w = Window.orderBy('timestamp')

df.select('*',when())

, когда и иначе logi c здесь, ссылаясь на отставание для предыдущей строки

Вопрос здесь в том, как искра обрабатывает это ?? , Так как размер набора данных огромен, более 10 миллиардов строк, я просто хочу понять, что происходит с оконной функцией без раздела. Спасибо!

1 Ответ

2 голосов
/ 23 января 2020

Если вы сделаете это, вы получите следующее предупреждение по искре:

WARN WindowExe c: раздел не определен для работы с окном! Перемещение всех данных в один раздел может привести к серьезному снижению производительности.

Я думаю, они сделали это совершенно ясно, это не будет работать для огромных наборов данных

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...