Выполнение запроса POST REST с использованием Pyspark - PullRequest
0 голосов
/ 24 сентября 2018

У меня есть сценарий pyspark как часть работы oozie.Действия следующие: 1. Извлечь данные из хранилища данных.2. Некоторые операции по сбору данных в кластере.3. Загрузите данные.В настоящее время выполняется toPandas () на фрейме данных pyspark. [Делает это, чтобы легко преобразовать в дамп json]. 4. Перенос данных в REST API.

Шаг (3) необходим только из-за шага (4) по мере необходимости вам нужно, чтобы данные были в драйвере, чтобы можно было сделать вызов REST.Тем не менее, я заметил, что шаг (3) отвечает за переменное время выполнения моего скрипта, а также за замедление моего скрипта.Мой вопрос, возможно ли вызвать и POST к REST API с рабочих узлов?Я видел несколько примеров использования запроса GET от REST (https://dataplatform.cloud.ibm.com/analytics/notebooks/52845a4a-1b5e-4f6e-b1a3-f312d796a93a/view?access_token=e3f303d7dd90138a9cf1fb77b00265a7b02aa12b891c2018e2e547f2050ef4e0),, но это не сработало для моего варианта использования.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...