Конвертировать матрицу в Pyspark Dataframe - PullRequest
0 голосов
/ 02 марта 2019

У меня есть матрица размером 1000 * 10000.Я хочу преобразовать эту матрицу в фрейм данных pyspark.

Может кто-нибудь подскажите, пожалуйста, как это сделать?Этот пост имеет пример.Но мое количество столбцов велико.Таким образом, назначение имен столбцов вручную будет затруднено.

Спасибо!

1 Ответ

0 голосов
/ 03 марта 2019

Чтобы создать фрейм данных Pyspark, вы можете использовать функцию createDataFrame ()

matrix = ([11,12,13,14,15], [21,22,23,24,25], [31,32,33,34,35], [41,42,43,44,45])
df = spark.createDataFrame (matrix)
df.show ()
+ --- + --- + --- + --- + --- +
|_1 |_2 |_3 |_4 |_5 |
+ --- + --- + --- + --- + --- +
|11 |12 |13 |14 |15 |
|21 |22 |23 |24 |25 |
|31 |32 |33 |34 |35 |
|41 |42 |43 |44 |45 |
+ --- + --- + --- + --- + --- +

Как вы можете видеть выше, столбцы будут названы автоматическис номерами.Вы также можете передать собственные имена столбцов в функцию createDataFrame ():

columns = ['mycol _' + str (col) для col в диапазоне (5)]
df = spark.createDataFrame (matrix, schema = columns)
df.show ()
+ ------- + ------- + ------- + ------- + ------- +
| mycol_0 | mycol_1 | mycol_2 | mycol_3 | mycol_4 |
+ ------- + ------- + ------- + ------- + ------- +
|11 |12 |13 |14 |15 |
|21 |22 |23 |24 |25 |
|31 |32 |33 |34 |35 |
|41 |42 |43 |44 |45 |
+ ------- + ------- + ------- + ------- + ------- +

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...