Несколько фильтров в Pyspark - PullRequest
0 голосов
/ 26 марта 2019

Необходимость фильтрации данных с использованием нескольких условий на основе кодов записи и даты предоставления услуг и подсчета различных значений на основе col1, col2, col3.

Возникла проблема с разрешением параметров Pyspark во время выполнения и без возврата записей.

from_dt = 01-01-2018
end_dt= 12-31-2018

df.filter((trim(df.code) =='AB') | (trim(df.code) =='CD') | (trim(df.code) =='F')).filter("from_dt >= '${0}' & end_dt <= ${1}'").select("col1","col2","col3").distinct().count()

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...