У меня есть скрипт на python, который использует spark для преобразования файлов в паркет, а затем записи в большой запрос. Он пишет в большой запрос и использует API Google для записи каждого из них по очереди.
spark-submit writeToBQ.py --tables=table1,table2,table3
Могу ли я использовать spark, и рабочие как-то пишут каждую таблицу параллельно? Я не уверен, что это можно сделать. Я хотел бы сделать что-то похожее на:
spark-submit writeToBQ.py --tables=table1
spark-submit writeToBQ.py --tables=table2
spark-submit writeToBQ.py --tables=table3
Запустить параллельно.