Можем ли мы написать собственный метод для загрузки данных из корзины S3 в Spark DataFrame - PullRequest
1 голос
/ 14 февраля 2020

У меня есть сценарий, в котором мне нужно загрузить Json данные из корзины s3 в Spark DataFrame, но проблема здесь в том, что мои данные в корзине S3 зашифрованы библиотекой Javax.crypto с использованием алгоритма шифрования AES / ECB / PKCS5Padding. когда я пытался прочитать данные с S3, spark выдает ошибку, что это не json данные, поскольку они находятся в зашифрованном формате. Можно ли как-нибудь написать свой собственный искровой код, который читает данные из корзины s3 как поток ввода файлов и применить этот процесс дешифрования с помощью утилиты Javax.crypto для преобразования и присвоения ему DataFram? (Я хочу, чтобы мой искровой код выполнялся над распределенным кластером). Ценю вашу помощь.

...