У меня есть фрейм данных, где один из столбцов содержит диапазон дат от 2019-01-01
до 2019-02-01
, где формат:
yyyy-mm-dd
Есть ли способ для l oop по фрейму данных каждый день , выбирая день, а затем фильтруйте по этому дню. Я хотел бы сделать некоторые вычисления на отфильтрованном фрейме данных, поскольку каждый день имеет несколько записей.
Поскольку это распределенные вычисления, я столкнулся с одним способом - вставить столбец с номером строки с помощью row_number()
над окном весь кадр данных, а затем запустите для l oop. Но я чувствую, что это контрпродуктивно, так как я бы вынудил весь фрейм данных в один узел, а мой фрейм данных содержит миллионы строк.
Есть ли способ для или для l oop в кадре данных pyspark без использования оконной функции?
Ваши экспертные выводы будут очень приветствоваться! Спасибо