Нужны входные данные для создания конвейера данных - PullRequest
0 голосов
/ 14 марта 2019

Для всех экспертов AWS мне нужна ваша помощь в проектировании и архитектуре конвейера данных больших данных. Ниже приведен сценарий: -

У меня есть большие файлы расширения .gz в S3, от МБ до ГБ. Это сжатые файлы журнала формата w3c. Теперь я хочу, чтобы эти файлы были загружены в конвейер BigData, разархивировали данные из файлов и затем преобразовали их в необходимые столбцы данных.

Не могли бы вы все эксперты AWS предоставить мне какое-нибудь дизайнерское решение, использующее готовые инструменты, инструменты с открытым исходным кодом или любые таможенные инструменты для достижения вышеуказанного конвейера данных.

1 Ответ

0 голосов
/ 14 марта 2019

Согласно искровой документации

Все файловые методы ввода Spark, включая textFile, также поддерживают работу с каталогами, сжатыми файлами и подстановочными знаками. Например, вы можете использовать textFile ("/ my / directory"), textFile ("/ my / directory / .txt") и textFile ("/ my / directory / .gz").

Все, что вам нужно сделать, это прочитать их в RDD (нет необходимости в отдельной декомпрессии), и вы можете выполнить любое преобразование, которое захотите.

logsRDD = sc.textFile("s3a://<directory>/*gz")

Справка:
https://community.hortonworks.com/questions/81191/spark-210-reading-gz-files-from-an-s3-bucket-or-di.html
http://spark.apache.org/docs/latest/rdd-programming-guide.html

...