Преобразование DataFrame в PySpark - PullRequest
       5

Преобразование DataFrame в PySpark

0 голосов
/ 17 сентября 2018

Я получил данные из файла JSON, и у меня есть такая структура:

DataFrame[CodLic: string, Fecha: struct<$date:struct<$numberLong:string>>, IDBus: struct<$numberInt:string>, NumResults: struct<$numberInt:string>, ResponseTime: struct<$numberDecimal:string>, _id: struct<$oid:string>]

Для зарядки файла я использую этот код:

df = spark.read.format('json').load(pathText)

Возвращает этот набор данных:

df.show(10)

+-----------+-----------------+-----------+-------------+---------------+--------------------+
|     CodLic|            Fecha|      IDBus|   NumResults|   ResponseTime|                 _id|
+-----------+-----------------+-----------+-------------+---------------+--------------------+
|        04P|[[1536761469602]]|[680244294]|          [0]|         [1404]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|[680244303]|          [0]|         [1420]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|[680244314]|          [0]|         [1404]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|[680244316]|          [0]|         [1388]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|[680244293]|          [0]|         [1373]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469618]]|[680244307]|          [0]|         [1388]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469618]]|[680244272]|          [0]|         [1404]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469618]]|[680244312]|          [0]|         [1388]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469618]]|[680244311]|          [0]|         [1404]|[5b991e7de5e8d9c1...|
|        04P|[[1536761469618]]|[680244317]|          [0]|         [1388]|[5b991e7de5e8d9c1...|
+-----------+-----------------+-----------+-------------+---------------+--------------------+
only showing top 10 rows

Как я могу преобразовать это в следующий набор данных?:

+-----------+-----------------+-----------+-------------+---------------+--------------------+
|     CodLic|            Fecha|      IDBus|   NumResults|   ResponseTime|                 _id|
+-----------+-----------------+-----------+-------------+---------------+--------------------+
|        04P|[[1536761469602]]|  680244294|            0|           1404|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|  680244303|            0|           1420|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|  680244314|            0|           1404|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|  680244316|            0|           1388|[5b991e7de5e8d9c1...|
|        04P|[[1536761469602]]|  680244293|            0|           1373|[5b991e7de5e8d9c1...|
+-----------+-----------------+-----------+-------------+---------------+--------------------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...