Я думаю, вы должны сначала разархивировать файлы GZipped, а затем прочитать каждый текстовый файл или разархивированный каталог, используя контекст spark. Поскольку Apache Spark использует API Hadoop FS для чтения ваших файлов на S3, чтобы воспользоваться преимуществами распределенной обработки, вы должны разархивировать их.
Для MapReduce, если вам нужно разделить сжатые данные, форматы BZip2, LZO, and Snappy
можно разделить, а GZip
- нет.
После того, как ваши данные распакованы, вы можете использовать SparkContext
для чтения файлов, как показано ниже
sparkContext.textFile("s3n://yourAccessKey:yourSecretKey@/path/")