Мне нужна помощь в небольшом проекте пакетной агрегации данных в виде мини-пакетов в течение 15 минут и обновления на панели мониторинга продаж в среде HADOOP.
ИСТОЧНИК:
4 ТранзакционныйТАБЛИЦЫ И 2 ОСНОВНЫХ ТАБЛИЦЫ прямо сейчас попадают в слой RAW.
TRANSACTIONAL Изменяется каждое мгновение, поэтому мне нужно обновлять ИНФОРМАЦИОННУЮ ПЛАТУ и финальные столы каждые 15 минут.Размер каждой транзакционной таблицы каждые 15 минут составляет примерно 20 МБ каждая.Таким образом, примерно 60 МБ данных каждые 15 минут.
Примечание. Размер кластера ОЗУ составляет 64 ГБ.
Как лучше всего планировать эту работу каждые15 минут CRON, OOZIE или что-нибудь еще?Можете ли вы поделиться примером кода?
Должен ли я разбить на дату / Timestamp / System_date лучший подход
Какие объединения будут оптимизированы для такой функциональностимы думаем о присоединении к карте сегментов: D
Лучший формат файла, так как мы используем Impala для механизма извлечения данных?
Есть ли у вас файлы CSVв слое RAW.