Pyspark - разделяет глобальную переменную между мастером и работником - PullRequest
0 голосов
/ 24 октября 2019

Я пытаюсь запустить конвейер данных с тысячами и тысячами файлов, и цель состоит в том, чтобы вместо того, чтобы запускать каждый файл, я просто запускаю конвейер для последнего файла (просто для обработки новых данных, чтобы быть быстрее)и добавьте его в файл паркета.

Для этого я отслеживаю последнее значение некоторых столбцов во вложенном dict (dict идентификаторов, и каждый ID имеет несколько атрибутов, таких как last_value_1, last_value_2 и т. Д., И когда я запускаю новый файл, я просто хочу перезагрузить последний вложенный словарь (который был сохранен из файла).

1) Одно делочто есть возможность сделать это? Или я должен использовать весь набор данных каждый раз?

2) У вас есть идея, как это сделать?

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...