Pyspark: проверьте, находятся ли данные в кадре данных, и добавьте данные - PullRequest
0 голосов
/ 19 ноября 2018

У меня есть два кадра данных, как это:

df:
+---+-----+--------------+
| id|group|          var1|
+---+-----+--------------+
|a-1|    a|         [1,2]|
|a-2|    a|         [3,4]|
|a-3|    a|           [5]|
|b-1|    b|         [6,7]|
+---+-----+--------------+

new_df:
+------+--------------+
| group|          var1|
+------+--------------+
|     a|             1|
|     a|             8|
|     b|             9|
+------+--------------+

Я хочу проверить, находятся ли данные в new_df уже в df, если нет, то append данные в df. Кроме того, каждый var1 может иметь только 2 данных. Результат будет выглядеть так:

+---+-----+--------------+
| id|group|          var1|
+---+-----+--------------+
|a-1|    a|         [1,2]|
|a-2|    a|         [3,4]|
|a-3|    a|         [5,8]|
|b-1|    b|         [6,7]|
|b-2|    b|           [9]|
+---+-----+--------------+

Как проверить данные и как добавить данные в список в кадре данных? Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...