Я пытаюсь запустить конвейер данных с тысячами и тысячами файлов, и цель состоит в том, чтобы вместо того, чтобы запускать каждый файл, я просто запускаю конвейер для последнего файла (просто для обработки новых данных, чтобы быть быстрее)и добавьте его в файл паркета.
Для этого я отслеживаю последнее значение некоторых столбцов во вложенном dict (dict идентификаторов, и каждый ID имеет несколько атрибутов, таких как last_value_1
, last_value_2
и т. Д., И когда я запускаю новый файл, я просто хочу перезагрузить последний вложенный словарь (который был сохранен из файла).
1) Одно делочто есть возможность сделать это? Или я должен использовать весь набор данных каждый раз?
2) У вас есть идея, как это сделать?