Question

Я хотел бы преобразовать два списка в фрейм данных pyspark, где списки являются соответствующими столбцами.

Я пытался

a=[1, 2, 3, 4]
b=[2, 3, 4, 5]
sqlContext.createDataFrame([a, b], schema=['a', 'b']).show()

Но я получил

+---+---+---+---+                                                               
|  a|  b| _3| _4|
+---+---+---+---+
|  1|  2|  3|  4|
|  2|  3|  4|  5|
+---+---+---+---+

Что мне действительно нужно, так это:

+---+---+                                                              
|  a|  b|
+---+---+
|  1|  2|
|  2|  3|
|  3|  4|
|  4|  5|
+---+---+

Есть ли удобный способ создать этот результат?

Dan · Answer 1 · 12 октября 2018

Я не знаю напрямую о pyspark, но я бы предположил, вместо этой структуры данных:

[[1, 2, 3, 4],
 [2, 3, 4, 5]]

вам нужно дать это

[[1, 2],
 [2, 3],
 [3, 4],
 [4, 5]]

Пояснительный способперейти от вашей структуры данных к тому, что требуется, это использовать numpy для транспонирования:

import numpy as np
a=[1, 2, 3, 4]
b=[2, 3, 4, 5]
sqlContext.createDataFrame((np.array([a, b])).T, schema=['a', 'b']).show()

fafl · Answer 2 · 12 октября 2018

Просто перенесите списки:

sqlContext.createDataFrame(zip(a, b), schema=['a', 'b']).show()

Как создать фрейм данных pyspark из нескольких списков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Как создать фрейм данных pyspark из нескольких списков

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов