Загрузка .csv в кластер Spark, состоящий из Windows и Linux - PullRequest
0 голосов
/ 10 ноября 2019

Я использую Spark 2.4.4 на кластере серверов Windows и Linux. Все запускается и вроде нормально подключается.

У меня есть около 10 ТБ данных CSV, которые в основном представляют собой одну гигантскую таблицу. Я хотел бы загрузить его в свой кластер и провести некоторый анализ. Файлы не сидят на HDFS. Они находятся на смеси фильтров, которые все сопоставлены с рабами.

Данные разбиты на несколько файлов. Я также мог бы легко объединить его в один большой файл, который могут видеть ведомые Windows и Linux. Чего я не хочу делать, так это из-за того, что мое разбиение файлов приводит к тому, что кластер Spark загружает / разбивает данные неоптимальным образом только из-за удачи в плане размещения файлов.

Каков наилучший способ загрузки этой таблицы в мой кластер, чтобы Spark наиболее эффективно ее распределял / разбивал на подчиненные устройства?

Конечная цель - просто использовать некоторые инструменты ML Pipeline дляпроанализировать данные.

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...