Добавить два Datafarme с заполнением недостающих данных - PullRequest
0 голосов
/ 26 сентября 2019

У меня есть два кадра данных

df_1:

ID    |  title  |  name   |   age
----------------------------------
32    |  AA     | Alex    | 30
----------------------------------
4568  |  BB     |  Dom    |  35
----------------------------------
3804  |  CC     |  pascal |  58
----------------------------------




  df_2:


ID   |  title   
--------------
288  |  AZERTY    
--------------
290  |  querty      
--------------

Я хочу добавить данные df_2 к df_1.И я хочу заполнить возраст столбца на unknow перед строкой, идущей от df_1.

df_1:

ID    |  title  |  name   |   age
----------------------------------
32    |  AA     | Alex    | 30
----------------------------------
4568  |  BB     |  Dom    |  35
----------------------------------
3804  |  CC     |  pascal |  58
----------------------------------
288  |  AZERTY  | unknow  | unknow
-----------------------------------
290  |  querty  | unknow  | unknow    
-----------------------------------

Как я могу добавить кадры данных в pyspark с заполнением пропущенных столбцов?

1 Ответ

1 голос
/ 26 сентября 2019

Вам нужно объединить таблицы:

df_2 = df_2
  .withColumn("name", lit("unknown"))
  .withColumn("age", lit("unknown"))

df_1.union(df_2).show()

+----+------+-------+-------+
|  id| title|   name|    age|
+----+------+-------+-------+
|  32|    AA|   Alex|     30|
|4568|    BB|    Dom|     35|
| 288|AZERTY|unknown|unknown|
| 290|querty|unknown|unknown|
+----+------+-------+-------+
...