Question

Мне нужно прочитать кучу Json файлов, используя pypark, пути к файлам на S3 находятся в кадре данных, который у меня есть. Как мне прочитать все эти файлы в одном скрипте pyspark?

Спасибо!

формат данных приведен ниже для примера

|id|S3Location                  
+----------------+--------------
|a|s3://path1/path6/yyy.json.gz|
|b|s3://path3/path7/xxx.json.gz|
|c|s3://path3/path8/aaa.json.gz|
|c|s3://path4/path9/bbb.json.gz|

zhifff · Answer 1 · 11 марта 2020

Я понял это сам -

pathset = df.select (collect_set ("S3Location"). Alias ("paths")). First () ["paths"] readjson = sqlContext .read. json (pathset)

Как мне прочитать Json файлов в pyspark на AWS по путям в столбце датафрам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как мне прочитать Json файлов в pyspark на AWS по путям в столбце датафрам?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов