Question

У меня есть огромный файл данных (200 Гб +), который содержит ежедневные метрики (миллионы метрик).

Для каждой метрики мне нужно будет рассчитать некоторое значение на основе предварительно определенного набора периодов времени (например,10, 50, 100, 365 дней).

Расчет происходит ежедневно, периоды времени не меняются, все периоды рассчитываются каждый раз.
результаты могут быть повторно использованы (из 10-серии могут быть повторно использованы для 50 и т. д., от 50 - для 100 и т. д.)
записи в файле не отсортированы

Мне интересно, есть ли Sparkшаблоны, которые можно применять для однократного чтения файла, кэширования результатов для # 2 и т. д.

Duy Nguyen Hoang · Answer 1 · 09 июля 2019

Я не совсем уверен в вашей реализации, но если вы хотите кэшировать огромный набор данных и делиться им среди заданий Spark, вы можете взглянуть на Alluxio .

Простая реализация - чтение файла, некоторая транспортировка и запись в Alluxio, ваше второе задание Spark будет читать Alluxio напрямую, чтобы получить данные, которые кэшируются в памяти Alluxio.

Поделитесь набором данных по расчетам Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Поделитесь набором данных по расчетам Spark

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Нет похожих вопросов