куст - как автоматически добавлять данные в таблицу улья каждый день? - PullRequest
1 голос
/ 12 марта 2020

У меня есть каталог в HDFS, где .csv файлы с фиксированной структурой и именами столбцов будут сбрасываться в конце каждого дня, что может выглядеть следующим образом:
enter image description here
У меня есть таблица улья, к которой в начале каждого дня должны добавляться новые данные с данными из .csv из файла .csv предыдущего дня. Как мне выполнить sh это.

Ответы [ 2 ]

1 голос
/ 12 марта 2020

Создание таблицы Hive поверх этого каталога в HDFS. После того, как новые файлы будут сброшены в расположение таблицы, выберите из этой таблицы будет выбирать новые файлы. Я бы предложил изменить процесс, который создает дамп файлов для записи в подпапки даты и создания секционированной таблицы по дате. Все, что вам нужно после этого, это запустить команду восстановления разделов перед выбором таблицы.

1 голос
/ 12 марта 2020

Могу предложить использовать CRON Jobs. Вы создаете сценарий, который обновляет таблицы, и настраиваете задание CRON для выполнения этого сценария каждый в указанное c время дня (для вашего случая - начало дня), и затем таблицы будут обновляться автоматически.

PS: это решение может применяться только в том случае, если ваш сервер работает, я имею в виду, что задание CRON должно использоваться на сервере, работающем 24/24, в противном случае вам следует использовать Anacron.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...