У меня возникает ситуация / проблема, когда мои задания выполняются параллельно при вставке данных в целевую таблицу кустов из разных источников.
src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1902,src_a,2,3,4
1902,src_a,4,5,6
src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1903,src_b,2,3,4
1903,src_b,4,5,6
Target table: tgt_source_all
hdfs_path: /application/hive-warehouse/db/tgt_source_all/ref_date_id=1902/source_id=src_a/parquet.file
/application/hive-warehouse/db/tgt_source_all/ref_date_id=1903/source_id=src_b/parquet.file
Это можно сделать, вставив исходные данные в цель. Но у меня возникает проблема при параллельном запуске моей программы с другим источником, но в ту же дату ???
like:
src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1904,src_a,2,3,4
1904,src_a,4,5,6
src_a data (source table 1):
ref_date_id,source_id,col_a,col_b
1904,src_b,2,3,4
1904,src_b,4,5,6
target data should insert as :
hdfs_path: /application/hive-warehouse/db/tgt_source_all/ref_date_id=1904/source_id=src_a/parquet.file
/application/hive-warehouse/db/tgt_source_all/ref_date_id=1904/source_id=src_b/parquet.file
, но при параллельной работе моей программы на другом источнике только те данные, которые первоначально были получены вставлен в многораздельный каталог, а другой источник не вставляет и не выдает ошибку, не может создать временную папку ...
Не могли бы вы мне помочь, как вставить несколько исходных данных в одну многораздельную цель Таблица ???? Примечание: я запускаю свою программу в pyspark.