У меня есть скрипт, который удаляет строки в текстовых файлах, хранящихся в HDFS . Данные разделены по дням с количеством данных менее 10MB
на раздел.
код считывает все данные в кадр данных (DF1
), отслеживая данные или данные src, поэтому я могу переписатьданные в конце. Затем на основе другого отдельного столбца данных (DF2
) удаляет все строки, содержащие любую строку в DF2
.
Объем данных невелик, хотя выполнение кода занимает слишком много времени.
Как настроить Spark для работы? Еще исполнители, ядра, память? Или, может быть, я мог бы обработать Dataframe по-другому?