У меня есть функция, которую я выполняю в pyspark-shell
import pandas as pd
def compute(x):
data = pd.read_csv("/tmp/data_{}.csv".format(x))
# Some Spark processing
# Writes back final output in tmp
Я хочу запустить это параллельно со списком x.Я попробовал это -
x_list=[14,63]
from multiprocessing import Process
for x in x_list:
p = Process(target = compute, args = (x,))
p.start()
Это завершает сценарий.Я хочу, чтобы они полностью запустились до завершения скрипта.
Как мне этого добиться?