У меня есть огромный файл данных (200 Гб +), который содержит ежедневные метрики (миллионы метрик).
Для каждой метрики мне нужно будет рассчитать некоторое значение на основе предварительно определенного набора периодов времени (например,10, 50, 100, 365 дней).
- Расчет происходит ежедневно, периоды времени не меняются, все периоды рассчитываются каждый раз.
- результаты могут быть повторно использованы (из 10-серии могут быть повторно использованы для 50 и т. д., от 50 - для 100 и т. д.)
- записи в файле не отсортированы
Мне интересно, есть ли Sparkшаблоны, которые можно применять для однократного чтения файла, кэширования результатов для # 2 и т. д.