Я запрашиваю таблицу sql с помощью pyspark.
Если у меня есть таблица sql, которая имеет два столбца (значение isDelayed) , где "значение" равнотипа double и "isDelayed" имеет значение 0 или 1. Как написать запрос, используя запрос агрегации pyspark, который дает сумму "value", когда "isDelayed" равен 1.
I 'мы уже попробовали приведенный ниже код, который выдает ошибку
def __main__(self, data):
delayedData = data.where(col('isDelayed').cast('int')==='1')
groupByIsDelayed = delayedData.agg(sum(total))
return groupByIsDelayed
Я получаю
«Ошибка синтаксиса: неверный синтаксис»
нижелиния
delayedData = data.where(col('isDelayed').cast('int')==='1')