Question

У меня есть Python DataFrame с Spark 1.6. Например

DF= ("timestamp","canal", "name")

Пример данных:

   [('1980-02-24'),('google.com/General'),('Alice')]
   [('1980-02-24'),('google.com/Dataset'),('bob')]
   [('1980-02-24'),('googleserach.com'),('Malik')]
   [('1980-02-24'),('googlesearch.com/AIPlateforme'),('AliceBob')]
   [('1980-02-24'),('yahooserach.com'),('Bob2')]
   [('1980-02-24'),('yahoosearch.com/AIPlateforme'),('Alice2')]

DF.count() = 6

Я хочу взять все строки, которые "canal" not contain substring googleserach.com и yahoosearch

Я создал переменную:

canal_2 = "googleserach.com,yahoosearch"

Тогда:

Решение 1:

result = DF.filter(~DF.canal.isin (canal_2)) ==> does not work
result.count() = 6

Решение 2:

if (canal2 not in DF.canal) ==> invalid syntax

Как я могу сделать фильтр на моем DataFrame, чтобы взять строки, которые "канал" не содержит googlesearch и yahoosearch?

Спасибо

thebluephantom · Answer 1 · 06 ноября 2018

df = spark.createDataFrame([ 
 ('1980-02-24','google.com/General','Alice'),
 ('1980-02-24','google.com/Dataset','bob'),
 ('1980-02-24','googleserach.com','Malik'),
 ('1980-02-24','googlesearch.com/AIPlateforme','AliceBob'),
 ('1980-02-24','yahooserach.com','Bob2'),
 ('1980-02-24','yahoosearch.com/AIPlateforme','Alice2')
                 ], schema=("dt","canal","name"))

df.filter(~df.canal.like('%google.com%') & ~df.canal.like('%yahoosearch%')).show()

Также возможно. pyspark не содержит, он появляется.

vikrant rana · Answer 2 · 07 ноября 2018

df.filter (~ DF [ "канал"]. ISIN (canal_2)). Собирать () Попробуйте это.

Taha Naqvi · Answer 3 · 06 ноября 2018

rlike и regex будут работать.

regexNegativeLB= "^/(?!googlesearch|yahoosearch)$"
newDF= DF.filter(DF["canal"].rlike(regexNegativeLB))

https://www.rexegg.com/regex-lookarounds.html - см. «Отрицательный взгляд»

Как фильтровать строки данных, не содержащие ни одного списка подстрок, используя pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как фильтровать строки данных, не содержащие ни одного списка подстрок, используя pyspark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 3 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов