Question

Я импортирую данные из файла csv, в котором есть столбцы Reading1 и Reading2, и сохраняю их в фрейме данных pyspark.Моя цель - иметь новое имя столбца Reading и его значение в виде массива, содержащего значения Reading1 и Reading2.Как можно добиться того же в pyspark.

        +---+-----------+-----------+
        | id|  Reading A|  Reading B| 
        +---+-----------------------+
        |01 |  0.123    |   0.145   | 
        |02 |  0.546    |   0.756   |
        +---+-----------+-----------+

        Desired Output:
        +---+------------------+
        | id|    Reading       |
        +---+------------------+
        |01 |  [0.123, 0.145]  |
        |02 |  [0.546, 0.756   |
        +---+------------------+-

kranthi kumar · Answer 1 · 22 сентября 2019

попробуйте это

import pyspark.sql.functions как f

df.withColumn ('чтение', f.array ([f.col ("чтение a"), f.col ("чтение b")]))

Хранение значений кратных столбцов в фрейме данных pyspark под новым столбцом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Хранение значений кратных столбцов в фрейме данных pyspark под новым столбцом

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы