PySpark помещает данные в https - PullRequest
0 голосов
/ 20 сентября 2018

У меня есть искровой фрейм данных (PySpark) с данными для 250 000 клиентов.Теперь я хочу отправить эти данные в HTTPS API (в виде файла JSON).Фактическое решение - использовать пакет запросов Python для отправки данных, который отлично работает для небольшого набора данных.Но для этого мне нужно собрать все данные на одном узле и отправить их оттуда.

Есть ли лучшее решение для этого варианта использования?Могу ли я запустить функцию на каждом узле для сохранения данных в https api?

Большое спасибо Christoph

1 Ответ

0 голосов
/ 20 сентября 2018

Преобразуйте кадр данных в rdd, затем вызовите foreachPartition или foreach

def f(iterator):
    for x in iterator:
        #Implement the api call here
        print(x)

df.rdd.foreachPartition(f)
...