запуск для l oop в диапазоне дат с помощью pyspark - PullRequest
1 голос
/ 11 февраля 2020

У меня есть фрейм данных, где один из столбцов содержит диапазон дат от 2019-01-01 до 2019-02-01, где формат:
yyyy-mm-dd Есть ли способ для l oop по фрейму данных каждый день , выбирая день, а затем фильтруйте по этому дню. Я хотел бы сделать некоторые вычисления на отфильтрованном фрейме данных, поскольку каждый день имеет несколько записей.

Поскольку это распределенные вычисления, я столкнулся с одним способом - вставить столбец с номером строки с помощью row_number() над окном весь кадр данных, а затем запустите для l oop. Но я чувствую, что это контрпродуктивно, так как я бы вынудил весь фрейм данных в один узел, а мой фрейм данных содержит миллионы строк.

Есть ли способ для или для l oop в кадре данных pyspark без использования оконной функции?

Ваши экспертные выводы будут очень приветствоваться! Спасибо

...