Необходимость фильтрации данных с использованием нескольких условий на основе кодов записи и даты предоставления услуг и подсчета различных значений на основе col1
, col2
, col3
.
Возникла проблема с разрешением параметров Pyspark во время выполнения и без возврата записей.
from_dt = 01-01-2018
end_dt= 12-31-2018
df.filter((trim(df.code) =='AB') | (trim(df.code) =='CD') | (trim(df.code) =='F')).filter("from_dt >= '${0}' & end_dt <= ${1}'").select("col1","col2","col3").distinct().count()