У меня есть конечная точка Rest, которая принимает данные json.Я хотел бы записать результат моей работы в эту службу.Обычно я записываю полученные данные в S3 с помощью DataFrameWriter как:
df.write.mode("overwrite").parquet(output_dir)
Интересно, можно ли вместо этого разместить все данные в REST API.
Я предполагаю, что мог бы что-то сделатьс forEachPartition, но мои данные состоят из миллиардов строк.Это было бы слишком медленно:
def f(iterator):
for x in iterator:
# make an HTTP request
rdd.foreachPartition(f)