Как использовать луч Apache для обработки исторических данных временных рядов? - PullRequest
0 голосов
/ 21 июня 2019

У меня есть модель Apache Beam для обработки нескольких временных рядов в реальном времени. Развернутый на GCP DataFlow, он объединяет несколько временных рядов в окна, вычисляет совокупность и т. Д. Теперь мне нужно выполнить одни и те же операции над историческими данными (одними и теми же (множественными) данными временных рядов) вплоть до 2017 года. Как я могу добиться этого, используя луч Apache?

Я понимаю, что мне нужно использовать свойство окон Apache Beam для расчета агрегатов и т. Д., Но он должен принимать данные от 2 лет назад

По сути, мне нужны данные, которые были бы доступны, если бы я развернул тот же конвейер 2 года. Это необходимо для тестирования / обучения модели

1 Ответ

0 голосов
/ 21 июня 2019

Это звучит как идеальный пример использования Beam для обработки событий. Вы можете запустить конвейер для любых устаревших данных и получить правильные результаты, если у событий есть метки времени. Без дополнительного контекста, я думаю, вам понадобится явный шаг в конвейере для назначения пользовательских временных меток (с 2017 года), которые вам нужно будет извлечь из данных. Для этого вы можете использовать:

  • context.outputWithTimestamp() в вашем DoFn;
  • WithTimestamps PTransform;

Возможно, вам придется настроить допустимый перекос метки времени, если у вас есть проблемы с упорядочением меток времени.

См:

...