Question

Я пытаюсь запустить конвейер данных с тысячами и тысячами файлов, и цель состоит в том, чтобы вместо того, чтобы запускать каждый файл, я просто запускаю конвейер для последнего файла (просто для обработки новых данных, чтобы быть быстрее)и добавьте его в файл паркета.

Для этого я отслеживаю последнее значение некоторых столбцов во вложенном dict (dict идентификаторов, и каждый ID имеет несколько атрибутов, таких как last_value_1, last_value_2 и т. Д., И когда я запускаю новый файл, я просто хочу перезагрузить последний вложенный словарь (который был сохранен из файла).

1) Одно делочто есть возможность сделать это? Или я должен использовать весь набор данных каждый раз?

2) У вас есть идея, как это сделать?

Pyspark - разделяет глобальную переменную между мастером и работником

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Pyspark - разделяет глобальную переменную между мастером и работником

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Нет похожих вопросов