У меня есть AWS -клеевой скрипт ETL scala, который читает некоторые xml с помощью сканера и выводит json файлов на s3.
Сейчас он сканирует xml с 88 «элементов» и выводит 20 файлов с примерно 4 json «строками» в каждом выходном файле.
Пример файла:
{"ns:somekey":1001501198810389}
{"ns:somekey":1004301201012684}
{"ns:somekey":1002601198911327}
{"ns:somekey":1002601197710232}
Можно ли изменить это значение на 1 стр. Pr. файл вывода?
мой вывод настроен так:
val datasink2 = glueContext.getSinkWithFormat(
connectionType = "s3",
options = JsonOptions("""{"path": "s3://dk-dmr-vehicles/glue-testlocal-output-nocompile"}"""),
transformationContext = "datasink2",
format = "json").writeDynamicFrame(applymapping1)