Как сделать спарк dataframe из нескольких списков в pyspark? - PullRequest
0 голосов
/ 25 июня 2019

Я использую pyspark и имею несколько списков, таких как:

A = [5, 2, 3, 24, 1, ....]
B = ["Jim", "Bob", "Tyler", ....]
C = [5, 6,5, 5, 5, ....]

Я хочу, чтобы во фрейме данных было 3 столбца (каждый список в виде одного столбца).Как я могу сделать это с pyspark?

1 Ответ

0 голосов
/ 25 июня 2019

Ссылка, созданная @James Flanagin, вероятно, лучшая, однако этот метод не был в этом ответе и полезен в некоторых сценариях.

Это мой предпочтительный способ создания фреймов данных pyspark.Это особенно полезно при модульном тестировании определенных данных.

Обратите внимание на использование вложенных Row объектов.

from pyspark.sql import Row

df =spark.sparkContext.parallelize([
            Row(user_jid='ryan_123',
                timestamp="2018-08-01T00:00:00.111Z",
                common_data=Row(platform='android')),
        ]).toDF()
...