создание фрейма данных из файла с разделителями-запятыми - PullRequest
0 голосов
/ 20 февраля 2019

Я пытаюсь создать фрейм данных из потока данных, который имеет следующий формат:

ABC,13:10,23| PQR,01:20,2| XYZ,07:30,14  
BCD,11:40,13| ABC,05:50,9| RST,17:20,5

Каждая запись разделена по конвейеру и имеет пакет из 3 и состоит из 3 вложенных записей.

Я хочу, чтобы каждая подзапись была столбцом, а каждая запись - одной строкой фрейма данных. Таким образом, в результате будет получено 3 столбца и 9 строк.

col1    col2     col3 
ABC     13:10     23
PQR     01:20      2

1 Ответ

0 голосов
/ 21 февраля 2019
from pyspark.sql.functions import split, explode    
df = spark.read.text("/path/to/data.csv")
df.select(explode(split(df["value"], "\|"))).show()
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...