Предположим, у нас есть фрейм данных pyspark с двумя столбцами, A и B. Я хочу создать третий столбец с именем 'overlap', который будет хранить в каждой строке размер пересечения A и B вплоть до текущей строки. , игнорируя все следующие строки.
Pyspark Windows может помочь указать, что моя функция должна применяться только к предыдущим строкам, однако согласно этому сообщению: Пользовательская функция, которая будет применена к Window в PySpark? , похоже, что я не могу создать свой собственный пользовательский UDF, который будет выполнять эту операцию в данном окне.
Есть ли способ добиться того же эффекта с помощью встроенных функций агрегирования, которые могут взаимодействовать с windows? Или, возможно, достичь этого без использования windows вообще?