EMR + Spark + KMS - сохранить расшифрованные данные - PullRequest
0 голосов
/ 01 июня 2018

Мы обрабатываем зашифрованные данные на клиентской стороне KMS в EMR с использованием spark.Я могу успешно обработать зашифрованные данные, используя следующую конфигурацию, но даже агрегированные данные, записанные в s3, зашифрованы.Есть ли способ записи незашифрованных данных в s3 с этими настройками?Если нет, то как мы можем расшифровать его перед загрузкой в ​​RDS для создания отчетов?

sc._jsc.hadoopConfiguration().set("fs.s3.cse.materialsDescription.enabled", "true");
sc._jsc.hadoopConfiguration().set("fs.s3.cse.encryptionMaterialsProvider", "com.amazon.ws.emr.hadoop.fs.cse.KMSEncryptionMaterialsProvider");
sc._jsc.hadoopConfiguration().set("fs.s3.cse.kms.keyId","arn:aws:kms:us-east-1:abcd");
sc._jsc.hadoopConfiguration().set("fs.s3.cse.enabled", "true");

print ('Запись в каталог ...' + OUTPUT_DIR) formatted_ags.repartition (1) .saveAsTextFile (OUTPUT_DIR)

1 Ответ

0 голосов
/ 04 июня 2018

Посмотрите на ответ для на этот вопрос , где описан обходной путь, как использовать различные конфигурации шифрования для пользовательской схемы URI.

...