У меня есть 3 спарк-скрипта, и у каждого из них есть 1 спарк sql для чтения секционированной таблицы и сохранения в каком-либо месте hdfs. У каждого скрипта есть свой оператор sql и другое расположение папки для хранения данных.
test1.py - Read from table 1 and store to location 1.
test2.py - Read from table 2 and store to location 2.
test3.py - Read from table 3 and store to location 3.
Я запускаю эти сценарии с использованием действия fork в ooz ie, и все три запускаются. Но проблема в том, что скрипты не хранят данные параллельно. Как только хранилище из одного сценария выполнено, запускается другое хранилище.
Я ожидаю, что данные всех трех таблиц будут храниться параллельно в соответствующих местах.
Я пробовал планирование FAIR и другие методы планировщика в сценариях Sparks, но они не работают. Может кто-нибудь, пожалуйста, помогите. Я застрял с этим в последние 2 дня.
Я использую AWS EMR 5.15, Spark 2.4 и Ooz ie 5.0.0.