У меня есть данные в RDD, и это выглядит примерно так:
['1,google.com',
'2,youtube.com',
'3,facebook.com',
'4,baidu.com',
'5,wikipedia.org']
Я хочу извлечь все URL, заканчивающиеся на .com, используя rdd.filter. Я попробовал что-то вроде этого:
top1m.filter(lambda x: x['_c1'].endswith('.com'))
Это дало мне ошибку Py4JJavaError, потому что Python 3.6 не работает с сеансом Spark, который я запускаю. Я чувствую, что должен быть какой-то лучший способ сделать это, особенно с помощью регулярных выражений. Пожалуйста помоги! Я не уверен, как использовать синтаксис.