pyspark оставил внешнее соединение - не может получить смешанный результат - PullRequest
0 голосов
/ 14 января 2019

Я хочу присоединиться к 2 pyspark dfs, где df_template содержит все столбцы и строки, которые мне нужны в выводе, а df_proc содержит данные для некоторых (но не всех) комбинаций строк / столбцов в df_template. Код, который я использую:

df_blend = df_template.join(df_proc, ["metro_area"],"left").select(df_template["*"])

Но все это возвращает оригинал df_template:

+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000501|       null|       null|       null|       null|       null|       null|
| A10000502|       null|       null|       null|       null|       null|       null|
| A10000503|       null|       null|       null|       null|       null|       null|
| A10000504|       null|       null|       null|       null|       null|       null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+

Это кажется довольно простым, но я просто не могу понять, как получить желаемый результат, какие-либо предложения ??? Вот то, что я хочу, чтобы вывод был похож ...

+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000501|       1455|         26|         19|         65|         38|       null|
| A10000502|        654|       1876|       1950|        886|       null|       null|
| A10000503|       null|       null|       null|       null|       null|       null|
| A10000504|        774|        854|       1012|        271|       null|       null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+

Для справки приведем исходные кадры данных. df_template

+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000501|       null|       null|       null|       null|       null|       null|
| A10000502|       null|       null|       null|       null|       null|       null|
| A10000503|       null|       null|       null|       null|       null|       null|
| A10000504|       null|       null|       null|       null|       null|       null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+

df_proc

+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000502|        654|       1876|       1950|        886|       null|       null|
| A10000504|        774|        854|       1012|        271|       null|       null|
| Al0000501|       1455|         26|         19|         65|         38|       null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...