У меня есть дневные данные временных рядов, на которых я запускаю модель.Модель работает в Spark.
Я хочу запускать модель только ежедневно и добавлять результаты к историческим результатам.Для успешного запуска модели важно иметь «объединенный единый источник данных», содержащий исторические данные.
Я должен использовать сервис AWS для сохранения результатов.Если я буду хранить в S3, я буду хранить до 1 файла в день (слишком много файлов).Если я храню в Redshift, он не сливается + не переносится, поэтому становится сложным.Данные, обращенные к клиенту, находятся в Redshift, поэтому удаление таблицы и ежедневная перезагрузка не возможны.
Я не уверен, как разумно (определяемый как минимальная стоимость и последующая обработка) хранить инкрементные данные без ежедневной повторной обработки, чтобы получить один файл.