Изменить шаблон строки в столбце в список - PullRequest
0 голосов
/ 08 июля 2019

У меня есть DF со столбцом "b" с шаблоном 'a | b | c | ... | z', подобным этому:

from pyspark import Row
from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName('DataFrame') \
    .master('local[*]') \
    .getOrCreate()

|  a|          b|           c|    d|
+---+-----------+------------+-----+
|  1|1|2|3|4|5|6|[11, 22, 33]|[foo]|
+---+-----------+------------+-----+

Я хотел бы изменить столбец "b" на список, чтобы затем разобрать его и выполнить дополнительную обработку, поэтому он должен выглядеть следующим образом:

|  a|                 b|           c|    d|
+---+------------------+------------+-----+
|  1|[1, 2, 3, 4, 5, 6]|[11, 22, 33]|[foo]|
+---+------------------+------------+-----+

Надеюсь, вы можете помочь.

1 Ответ

0 голосов
/ 08 июля 2019

Благодаря @giser_yugang решение для моей темы:

from pyspark.sql.functions import split

df.withColumn("b", split("b", "\|"))
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...