Мне нужно прочитать кучу Json файлов, используя pypark, пути к файлам на S3 находятся в кадре данных, который у меня есть. Как мне прочитать все эти файлы в одном скрипте pyspark?
Спасибо!
формат данных приведен ниже для примера
|id|S3Location
+----------------+--------------
|a|s3://path1/path6/yyy.json.gz|
|b|s3://path3/path7/xxx.json.gz|
|c|s3://path3/path8/aaa.json.gz|
|c|s3://path4/path9/bbb.json.gz|