Pyspark - Как записать полученные данные в сервис с помощью Rest API - PullRequest
0 голосов
/ 18 декабря 2018

У меня есть конечная точка Rest, которая принимает данные json.Я хотел бы записать результат моей работы в эту службу.Обычно я записываю полученные данные в S3 с помощью DataFrameWriter как:

df.write.mode("overwrite").parquet(output_dir)

Интересно, можно ли вместо этого разместить все данные в REST API.

Я предполагаю, что мог бы что-то сделатьс forEachPartition, но мои данные состоят из миллиардов строк.Это было бы слишком медленно:

def f(iterator):
    for x in iterator:
    # make an HTTP request
rdd.foreachPartition(f)
...