Скажем, у меня есть данные (пользовательские события), хранящиеся в распределенной файловой системе, такой как S3 или HDFS. Пользовательские события хранятся в каталоге по дате.
Случай 1 Учтите, что для работы с искрой необходимо прочитать данные за один день. Насколько я понимаю, одно искровое задание будет считывать данные из этого дневного каталога и считывать данные по блокам, предоставляя данные в искровой кластер для вычислений. Будет ли этот процесс чтения блока за последовательным блоком последовательным?
Случай 2 Учтите, что задание на искру должно считывать данные более одного дня (скажем, 2 дня) Вопрос: Здесь задание должно читать данные из двух отдельных каталогов. Нужно ли запускать два отдельных процесса зажигания (или потоки), чтобы данные, считанные из отдельного каталога, могли выполняться параллельно?