сопоставление шаблона регулярных выражений с лямбда-выражением внутри фильтра для pyspark RDD - PullRequest
0 голосов
/ 06 марта 2020

У меня есть данные в RDD, и это выглядит примерно так:

['1,google.com',  
 '2,youtube.com',  
 '3,facebook.com',  
 '4,baidu.com',  
 '5,wikipedia.org']  

Я хочу извлечь все URL, заканчивающиеся на .com, используя rdd.filter. Я попробовал что-то вроде этого:

top1m.filter(lambda x: x['_c1'].endswith('.com'))

Это дало мне ошибку Py4JJavaError, потому что Python 3.6 не работает с сеансом Spark, который я запускаю. Я чувствую, что должен быть какой-то лучший способ сделать это, особенно с помощью регулярных выражений. Пожалуйста помоги! Я не уверен, как использовать синтаксис.

...