Моя проблема заключается в следующем:
Table 1
ID1 ID2
1 2
3 4
Table 2
C1 VALUE
1 London
4 Texas
Table3
C3 VALUE
2 Paris
3 Arizona
В таблице 1 указаны первичные и вторичные идентификаторы.Мне нужно создать окончательный вывод, который представляет собой агрегацию значений из таблицы 2 и таблицы 3 на основе сопоставления идентификаторов из таблицы 1.
, т. Е. Если значение в таблице 2 или таблице 3 сопоставлено с любым из идентификаторов, оно должно быть объединено в единое целое..
i.e my final output should look like:
ID Aggregated
1 [2, London, Paris] // since Paris is mapped to 2 which is turn is mapped to 1
3 [4, Texas, Arizona] // Texas is mapped to 4 which in turn is mapped to 3
Любые предложения, как этого добиться в pyspark.
Я не уверен, что присоединение к таблицам поможет в этой проблеме.
Я думалPairedRDD может помочь мне в этом, но я не могу найти правильное решение.
Спасибо