Данные Spark Load от Slow Service - PullRequest
       0

Данные Spark Load от Slow Service

0 голосов
/ 15 февраля 2020

Я новичок в спарке, и мне нужно будет получать данные в пакетном режиме из удаленного сервиса за другой период (1 час, 6 часов, 1 день).

Я пытался разделить параметры (в основном, час смещение и пределы для указания начала / конца пакета) в Seq, и использовать распараллеливание Seq, затем вызвать службу в forEachPartition, каждая строка будет выгружена в RDD

Но, похоже, в каждом дублируются элементы раздел, и по какой-то причине некоторые запросы не были выполнены (некоторые данные отсутствовали).

Мне интересно, есть ли способ параллелизировать процесс с каждым потоком / процессом, имеющим свой собственный выделенный параметр и запускаться на их собственные исполнители. Но на самом деле не знаю, как поступить.

Любое предложение будет с благодарностью. Спасибо

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...