Для каждой строки найдите размер пересечения между двумя столбцами для всех предыдущих строк. - PullRequest
0 голосов
/ 10 февраля 2020

Предположим, у нас есть фрейм данных pyspark с двумя столбцами, A и B. Я хочу создать третий столбец с именем 'overlap', который будет хранить в каждой строке размер пересечения A и B вплоть до текущей строки. , игнорируя все следующие строки.

Pyspark Windows может помочь указать, что моя функция должна применяться только к предыдущим строкам, однако согласно этому сообщению: Пользовательская функция, которая будет применена к Window в PySpark? , похоже, что я не могу создать свой собственный пользовательский UDF, который будет выполнять эту операцию в данном окне.

Есть ли способ добиться того же эффекта с помощью встроенных функций агрегирования, которые могут взаимодействовать с windows? Или, возможно, достичь этого без использования windows вообще?

...