Pyspark фильтр строк на основе постоянного значения - PullRequest
0 голосов
/ 01 мая 2020
+------------+---------+----------+-----------+
|     part_no|prod_week| daily_qty|lineoffdate|
+------------+---------+----------+-----------+
|019990616100|   202004| 000000000| 2020-01-23|
|019990616100|   202004| 000000000| 2020-01-24|
|019990616100|   202004| 000000000| 2020-01-25|
|019990616100|   202005| 000000000| 2020-01-26|
|019990616100|   202005| 000000000| 2020-01-27|
|019990616100|   202005| 000000001| 2020-01-28|
|019990616100|   202005| 000000000| 2020-01-29|
|019990616100|   202005| 000000000| 2020-01-30|
|019990616100|   202005| 000000000| 2020-01-31|
|019990616100|   202005| 000000000| 2020-02-01|
|019990616100|   202006| 000000000| 2020-02-02|
|019990616100|   202006| 000000000| 2020-02-03|
|019990616100|   202006| 000000000| 2020-02-04|
|019990616100|   202006| 000000000| 2020-02-05|
|019990616100|   202006| 000000000| 2020-02-06|
|019990616100|   202006| 000000000| 2020-02-07|
|019990616100|   202006| 000000000| 2020-02-08|
|019990616100|   202007| 000000000| 2020-02-09|
|019990616100|   202007| 000000000| 2020-02-10|
|019990616100|   202007| 000000000| 2020-02-11|
+------------+---------+----------+-----------+

Я хотел бы удалить или отфильтровать строки, чтобы исключить daily_qty со значением '000000000'. daily_qty имеет тип string. Пробовал следующие комбинации, но фильтрация, похоже, не работает вообще. Может кто-нибудь, пожалуйста, помогите мне, где я иду не так

ds1 =  ds.filter(F.col('daily_qty') != '000000000')
#ds1 =  ds.filter(F.col('daily_qty') != F.lit('000000000'))
#ds1=ds.filter(~F.col('daily_qty').isin(['000000000']))

Спасибо, Аруна

...