Я хочу присоединиться к 2 pyspark dfs, где df_template содержит все столбцы и строки, которые мне нужны в выводе, а df_proc содержит данные для некоторых (но не всех) комбинаций строк / столбцов в df_template. Код, который я использую:
df_blend = df_template.join(df_proc, ["metro_area"],"left").select(df_template["*"])
Но все это возвращает оригинал df_template:
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000501| null| null| null| null| null| null|
| A10000502| null| null| null| null| null| null|
| A10000503| null| null| null| null| null| null|
| A10000504| null| null| null| null| null| null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
Это кажется довольно простым, но я просто не могу понять, как получить желаемый результат, какие-либо предложения ??? Вот то, что я хочу, чтобы вывод был похож ...
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000501| 1455| 26| 19| 65| 38| null|
| A10000502| 654| 1876| 1950| 886| null| null|
| A10000503| null| null| null| null| null| null|
| A10000504| 774| 854| 1012| 271| null| null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
Для справки приведем исходные кадры данных.
df_template
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000501| null| null| null| null| null| null|
| A10000502| null| null| null| null| null| null|
| A10000503| null| null| null| null| null| null|
| A10000504| null| null| null| null| null| null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
df_proc
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
|metro_area| option_001| option_002| option_003| option_004| option_005| option_006|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+
| A10000502| 654| 1876| 1950| 886| null| null|
| A10000504| 774| 854| 1012| 271| null| null|
| Al0000501| 1455| 26| 19| 65| 38| null|
+----------+-----------+-----------+-----------+-----------+-----------+-----------+