Можно ли распараллелить запись данных в Google Bigquery с помощью spark-submit? - PullRequest
0 голосов
/ 18 января 2019

У меня есть скрипт на python, который использует spark для преобразования файлов в паркет, а затем записи в большой запрос. Он пишет в большой запрос и использует API Google для записи каждого из них по очереди.

spark-submit writeToBQ.py --tables=table1,table2,table3 

Могу ли я использовать spark, и рабочие как-то пишут каждую таблицу параллельно? Я не уверен, что это можно сделать. Я хотел бы сделать что-то похожее на:

spark-submit writeToBQ.py --tables=table1 
spark-submit writeToBQ.py --tables=table2 
spark-submit writeToBQ.py --tables=table3 

Запустить параллельно.

...