Я использую Spark 2.4.4 на кластере серверов Windows и Linux. Все запускается и вроде нормально подключается.
У меня есть около 10 ТБ данных CSV, которые в основном представляют собой одну гигантскую таблицу. Я хотел бы загрузить его в свой кластер и провести некоторый анализ. Файлы не сидят на HDFS. Они находятся на смеси фильтров, которые все сопоставлены с рабами.
Данные разбиты на несколько файлов. Я также мог бы легко объединить его в один большой файл, который могут видеть ведомые Windows и Linux. Чего я не хочу делать, так это из-за того, что мое разбиение файлов приводит к тому, что кластер Spark загружает / разбивает данные неоптимальным образом только из-за удачи в плане размещения файлов.
Каков наилучший способ загрузки этой таблицы в мой кластер, чтобы Spark наиболее эффективно ее распределял / разбивал на подчиненные устройства?
Конечная цель - просто использовать некоторые инструменты ML Pipeline дляпроанализировать данные.
Спасибо!