Я новичок в Python / PySpark, и у меня возникают проблемы с очисткой данных перед использованием их на терминале моего Mac. Я хочу удалить любую строку, которая содержит нулевые значения или повторяющиеся строки. Я использовал .distinct()
и попробовал с:
rw_data3 = rw_data.filter(rw_data.isNotNull())
Я тоже пробовал ...
from functools import reduce
rw_data.filter(~reduce(lambda x, y: x & y, [rw_data[c].isNull() for c in
rw_data.columns])).show()
но я получаю
"AttributeError: 'RDD' object has no attribute 'isNotNull'"
или
"AttributeError: 'RDD' object has no attribute 'columns'"
Что ясно показывает, что я не совсем понимаю синтаксис очистки DataFrame