Как перевести эту часть sql в эквивалент Pyspark syntx:
Select sum(a*(1-b)) from MTABLE group by (a,b)
Я попытался создать функцию, которая принимает два аргумента и возвращает x * (1-y), но не может передать это как аргумент суммы
df.groupby('a','b'
.agg(sum(q1_sum1_udf('a','b'))).show()
def q1_sum1(x,y):
return int(x)*(int(y)-1)
Я знаю, что это возможно в scala, но не могу найти то же самое в pyspark