Я новичок в спарке, и мне нужно будет получать данные в пакетном режиме из удаленного сервиса за другой период (1 час, 6 часов, 1 день).
Я пытался разделить параметры (в основном, час смещение и пределы для указания начала / конца пакета) в Seq, и использовать распараллеливание Seq, затем вызвать службу в forEachPartition, каждая строка будет выгружена в RDD
Но, похоже, в каждом дублируются элементы раздел, и по какой-то причине некоторые запросы не были выполнены (некоторые данные отсутствовали).
Мне интересно, есть ли способ параллелизировать процесс с каждым потоком / процессом, имеющим свой собственный выделенный параметр и запускаться на их собственные исполнители. Но на самом деле не знаю, как поступить.
Любое предложение будет с благодарностью. Спасибо