Question

Предположим, у меня есть большой список, подобный следующему:

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...]

Я хочу создать таблицу с тремя столбцами: name, country и num и сохранить ее как паркет в формате hdf.

как мне это сделать с помощью pyspark?

лучше сохранить этот список в виде файла csv и загрузить его непосредственно в pyspark или нет?

linog · Answer 1 · 03 мая 2020

Запись с python в csv и загрузка его с spark - это излишне. Вы можете напрямую создать DataFrame с помощью createDataFrame:

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673]]

df = spark.createDataFrame(lst, ['name','country','num'])
df.show(3)

+-----+-------+---+
| name|country|num|
+-----+-------+---+
|david|  italy|234|
|alice| france|517|
|  kim|  japan|673|
+-----+-------+---+

И, наконец, записать в hdfs с помощью df.write.parquet method

Создайте фрейм данных в формате hdf из вложенного списка python.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Создайте фрейм данных в формате hdf из вложенного списка python.

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов