sc.Parallelize не может загружать файлы из всех папок, указанных в списке. - PullRequest
0 голосов
/ 03 октября 2018

Я храню все события от kafka до s3, используя kafka connect.Затем я использую задание emr spark для чтения файлов в s3, но буду читать все объекты из s3, используя

sc.parallelize(['partition=0', 'partition=1', partition=2]).flatMap(<func lists ll s3 objects>).collect()

Это чтение только из раздела = 0, пропуская другие разделы, хотя файлы присутствуют в тех разделах, которые я пытался найтино не смог найти ничего полезного для решения этой проблемы.Может кто-нибудь помочь, если я здесь что-то не так делаю.

Заранее спасибо.

...