Как мне прочитать Json файлов в pyspark на AWS по путям в столбце датафрам? - PullRequest
0 голосов
/ 10 марта 2020

Мне нужно прочитать кучу Json файлов, используя pypark, пути к файлам на S3 находятся в кадре данных, который у меня есть. Как мне прочитать все эти файлы в одном скрипте pyspark?

Спасибо!

формат данных приведен ниже для примера

|id|S3Location                  
+----------------+--------------
|a|s3://path1/path6/yyy.json.gz|
|b|s3://path3/path7/xxx.json.gz|
|c|s3://path3/path8/aaa.json.gz|
|c|s3://path4/path9/bbb.json.gz|

1 Ответ

0 голосов
/ 11 марта 2020

Я понял это сам -

pathset = df.select (collect_set ("S3Location"). Alias ​​("paths")). First () ["paths"] readjson = sqlContext .read. json (pathset)

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...