Question

Скажем, у меня есть данные (пользовательские события), хранящиеся в распределенной файловой системе, такой как S3 или HDFS. Пользовательские события хранятся в каталоге по дате.

Случай 1 Учтите, что для работы с искрой необходимо прочитать данные за один день. Насколько я понимаю, одно искровое задание будет считывать данные из этого дневного каталога и считывать данные по блокам, предоставляя данные в искровой кластер для вычислений. Будет ли этот процесс чтения блока за последовательным блоком последовательным?

Случай 2 Учтите, что задание на искру должно считывать данные более одного дня (скажем, 2 дня) Вопрос: Здесь задание должно читать данные из двух отдельных каталогов. Нужно ли запускать два отдельных процесса зажигания (или потоки), чтобы данные, считанные из отдельного каталога, могли выполняться параллельно?

Salim · Answer 1 · 13 января 2020

Этого можно добиться, объединяя данные в группы и сохраняя их. Также используйте формат файла паркета, который является столбчатым. Spark применяет сокращение раздела и предикат pu sh down, чтобы уменьшить объем данных, считываемых для запроса. Использование нескольких исполнителей вместе с несколькими разделами поможет параллельной обработке данных.

Spark чтение из распределенной файловой системы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Spark чтение из распределенной файловой системы?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов