Не уверен, если вы все еще ищете это.
Вы можете указать местоположение файлов, из которых вы хотите читать, и использовать Spark-java (если это то, с чем вы знакомы?) И сгенерировать его.большой файл
JavaRDD<YourObjectStructureInPOJO> objectRDD = sparkSession.read().format("csv").option("header", true).option("sep","YOUR_CSV_DELIMITER").option("mode", "FAILFAST")
.schema(getStructureTypes()).load(YOUR_PATH_TO_READ_FROM).javaRDD().map(new YourCustomFunctionToReadIntoObjects());
Dataset<Row> yourDataFrame= sparkSession.createDataFrame(objectRDD, YourObjectStructureInPOJO.class);
Как только вы прочитаете все, вы можете записать в один файл CSV
yourDataFrame.coalesce(1).write().mode(SaveMode.Overwrite).option("header", true).option("sep", "YOUR_CSV_DELIMITER").csv(YOUR_S3_PATH_TO_SAVE);
Я не уверен насчет реализации Python для того же, но я надеюсь, что это поможет вам,