Я хотел бы использовать EMR и Spark для обработки отчета об инвентаризации AWS S3, сгенерированного в формате ORC, который содержит много файлов ORC (сотни), а общий размер всех данных составляет около 250 ГБ.
Есть ли определенный или лучший способ чтения всех файлов в одном наборе данных? Кажется, что я могу передать методу sqlContext.read().orc()
список файлов, но я не был уверен, правильно ли будет масштабироваться / распараллеливаться, если я передам ему большой список из сотен файлов.
Каков наилучший практический способ сделать это? В конечном итоге моя цель состоит в том, чтобы содержимое всех файлов было в одном наборе данных, чтобы я мог выполнить SQL-запрос к набору данных, а затем вызвать .map
для результатов для последующей обработки этого набора результатов.
Заранее спасибо за ваши предложения.