Поделитесь набором данных по расчетам Spark - PullRequest
1 голос
/ 09 июля 2019

У меня есть огромный файл данных (200 Гб +), который содержит ежедневные метрики (миллионы метрик).

Для каждой метрики мне нужно будет рассчитать некоторое значение на основе предварительно определенного набора периодов времени (например,10, 50, 100, 365 дней).

  1. Расчет происходит ежедневно, периоды времени не меняются, все периоды рассчитываются каждый раз.
  2. результаты могут быть повторно использованы (из 10-серии могут быть повторно использованы для 50 и т. д., от 50 - для 100 и т. д.)
  3. записи в файле не отсортированы

Мне интересно, есть ли Sparkшаблоны, которые можно применять для однократного чтения файла, кэширования результатов для # 2 и т. д.

1 Ответ

0 голосов
/ 09 июля 2019

Я не совсем уверен в вашей реализации, но если вы хотите кэшировать огромный набор данных и делиться им среди заданий Spark, вы можете взглянуть на Alluxio .

Простая реализация - чтение файла, некоторая транспортировка и запись в Alluxio, ваше второе задание Spark будет читать Alluxio напрямую, чтобы получить данные, которые кэшируются в памяти Alluxio.

Alluxio Architecture with Spark and Other Computation Engines

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...