Я должен признать, что не знаю, как правильно сформулировать заглавный вопрос для этого (любая помощь приветствуется), но я постараюсь быть более ясным здесь:
Я хотел быраспределить задачу с помощью Spark, но я хотел бы использовать исключительно некоторые ресурсы.Нет никаких ограничений на порядок обработки набора данных, но я бы хотел, чтобы каждый пакет, распределенный и проанализированный в разных узлах кластеров, использовал разные ресурсы.
Я приведу пример, который, будем надеяться, прояснит вопрос:
Представьте, что мне нужно проанализировать текстовые сообщения 10MLN для задачи анализа настроений.Анализ настроений обеспечивается веб-сервером, который способен анализировать пакет из 100 сообщений за 100 мс через API, доступный с учетными данными.Поскольку я не хочу тратить недели на анализ их всех, идея состоит в том, чтобы распределить задачу.Но я не могу распределить те же учетные данные, потому что я бы взял на себя RateLimit или перегрузку.Желательным решением будет использование ОДИН учетных данных на раздел в Spark или на узел.Как я могу это сделать, если учетные данные могут измениться, чтобы они не фиксировались для узлов?