выдает параллельную вставку двух исходных данных в общую целевую таблицу в кусте - PullRequest
0 голосов
/ 25 марта 2020

У меня возникает ситуация / проблема, когда мои задания выполняются параллельно при вставке данных в целевую таблицу кустов из разных источников.

src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1902,src_a,2,3,4
1902,src_a,4,5,6

src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1903,src_b,2,3,4
1903,src_b,4,5,6


Target table: tgt_source_all
hdfs_path:  /application/hive-warehouse/db/tgt_source_all/ref_date_id=1902/source_id=src_a/parquet.file
            /application/hive-warehouse/db/tgt_source_all/ref_date_id=1903/source_id=src_b/parquet.file

Это можно сделать, вставив исходные данные в цель. Но у меня возникает проблема при параллельном запуске моей программы с другим источником, но в ту же дату ???

like:

src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1904,src_a,2,3,4
1904,src_a,4,5,6

src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1904,src_b,2,3,4
1904,src_b,4,5,6

target data should insert as :
hdfs_path:  /application/hive-warehouse/db/tgt_source_all/ref_date_id=1904/source_id=src_a/parquet.file
            /application/hive-warehouse/db/tgt_source_all/ref_date_id=1904/source_id=src_b/parquet.file

, но при параллельной работе моей программы на другом источнике только те данные, которые первоначально были получены вставлен в многораздельный каталог, а другой источник не вставляет и не выдает ошибку, не может создать временную папку ...

Не могли бы вы мне помочь, как вставить несколько исходных данных в одну многораздельную цель Таблица ???? Примечание: я запускаю свою программу в pyspark.

...