Создайте фрейм данных в формате hdf из вложенного списка python. - PullRequest
0 голосов
/ 03 мая 2020

Предположим, у меня есть большой список, подобный следующему:

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673], ...]

Я хочу создать таблицу с тремя столбцами: name, country и num и сохранить ее как паркет в формате hdf.

как мне это сделать с помощью pyspark?

лучше сохранить этот список в виде файла csv и загрузить его непосредственно в pyspark или нет?

1 Ответ

2 голосов
/ 03 мая 2020

Запись с python в csv и загрузка его с spark - это излишне. Вы можете напрямую создать DataFrame с помощью createDataFrame:

lst = [['david', 'italy', 234], ['alice', 'france', 517], ['kim', 'japan', 673]]

df = spark.createDataFrame(lst, ['name','country','num'])
df.show(3)

+-----+-------+---+
| name|country|num|
+-----+-------+---+
|david|  italy|234|
|alice| france|517|
|  kim|  japan|673|
+-----+-------+---+

И, наконец, записать в hdfs с помощью df.write.parquet method

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...