Как фильтровать строки данных, не содержащие ни одного списка подстрок, используя pyspark - PullRequest
0 голосов
/ 06 ноября 2018

У меня есть Python DataFrame с Spark 1.6. Например

DF= ("timestamp","canal", "name")

Пример данных:

   [('1980-02-24'),('google.com/General'),('Alice')]
   [('1980-02-24'),('google.com/Dataset'),('bob')]
   [('1980-02-24'),('googleserach.com'),('Malik')]
   [('1980-02-24'),('googlesearch.com/AIPlateforme'),('AliceBob')]
   [('1980-02-24'),('yahooserach.com'),('Bob2')]
   [('1980-02-24'),('yahoosearch.com/AIPlateforme'),('Alice2')]

DF.count() = 6

Я хочу взять все строки, которые "canal" not contain substring googleserach.com и yahoosearch

Я создал переменную:

canal_2 = "googleserach.com,yahoosearch"

Тогда:

Решение 1:

result = DF.filter(~DF.canal.isin (canal_2)) ==> does not work
result.count() = 6

Решение 2:

if (canal2 not in DF.canal) ==> invalid syntax

Как я могу сделать фильтр на моем DataFrame, чтобы взять строки, которые "канал" не содержит googlesearch и yahoosearch?

Спасибо

Ответы [ 3 ]

0 голосов
/ 06 ноября 2018
df = spark.createDataFrame([ 
 ('1980-02-24','google.com/General','Alice'),
 ('1980-02-24','google.com/Dataset','bob'),
 ('1980-02-24','googleserach.com','Malik'),
 ('1980-02-24','googlesearch.com/AIPlateforme','AliceBob'),
 ('1980-02-24','yahooserach.com','Bob2'),
 ('1980-02-24','yahoosearch.com/AIPlateforme','Alice2')
                 ], schema=("dt","canal","name"))

df.filter(~df.canal.like('%google.com%') & ~df.canal.like('%yahoosearch%')).show()

Также возможно. pyspark не содержит, он появляется.

0 голосов
/ 07 ноября 2018

df.filter (~ DF [ "канал"]. ISIN (canal_2)). Собирать () Попробуйте это.

0 голосов
/ 06 ноября 2018

rlike и regex будут работать.

regexNegativeLB= "^/(?!googlesearch|yahoosearch)$"
newDF= DF.filter(DF["canal"].rlike(regexNegativeLB))

https://www.rexegg.com/regex-lookarounds.html - см. «Отрицательный взгляд»

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...