Spark чтение из распределенной файловой системы? - PullRequest
0 голосов
/ 12 января 2020

Скажем, у меня есть данные (пользовательские события), хранящиеся в распределенной файловой системе, такой как S3 или HDFS. Пользовательские события хранятся в каталоге по дате.

Случай 1 Учтите, что для работы с искрой необходимо прочитать данные за один день. Насколько я понимаю, одно искровое задание будет считывать данные из этого дневного каталога и считывать данные по блокам, предоставляя данные в искровой кластер для вычислений. Будет ли этот процесс чтения блока за последовательным блоком последовательным?

Случай 2 Учтите, что задание на искру должно считывать данные более одного дня (скажем, 2 дня) Вопрос: Здесь задание должно читать данные из двух отдельных каталогов. Нужно ли запускать два отдельных процесса зажигания (или потоки), чтобы данные, считанные из отдельного каталога, могли выполняться параллельно?

1 Ответ

1 голос
/ 13 января 2020

Этого можно добиться, объединяя данные в группы и сохраняя их. Также используйте формат файла паркета, который является столбчатым. Spark применяет сокращение раздела и предикат pu sh down, чтобы уменьшить объем данных, считываемых для запроса. Использование нескольких исполнителей вместе с несколькими разделами поможет параллельной обработке данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...