У меня есть Python DataFrame с Spark 1.6. Например
DF= ("timestamp","canal", "name")
Пример данных:
[('1980-02-24'),('google.com/General'),('Alice')]
[('1980-02-24'),('google.com/Dataset'),('bob')]
[('1980-02-24'),('googleserach.com'),('Malik')]
[('1980-02-24'),('googlesearch.com/AIPlateforme'),('AliceBob')]
[('1980-02-24'),('yahooserach.com'),('Bob2')]
[('1980-02-24'),('yahoosearch.com/AIPlateforme'),('Alice2')]
DF.count() = 6
Я хочу взять все строки, которые "canal"
not contain
substring
googleserach.com
и yahoosearch
Я создал переменную:
canal_2 = "googleserach.com,yahoosearch"
Тогда:
Решение 1:
result = DF.filter(~DF.canal.isin (canal_2)) ==> does not work
result.count() = 6
Решение 2:
if (canal2 not in DF.canal) ==> invalid syntax
Как я могу сделать фильтр на моем DataFrame, чтобы взять строки, которые "канал" не содержит googlesearch
и yahoosearch
?
Спасибо