- Мы используем hive over hdfs для автоматизации нашей системы отчетности.
Наш импорт в HDFS из сторонних API запланирован через cronjob для сценариев R.
Проблема в том, что если одному из импортеров не удалось обновить новые данные в HDFS (по какой-либо причине), это нарушает нашу отчетность за день, поскольку большинство наших отчетов (запросов Hive) взаимосвязаны.
Мы должны убедиться, что эти сценарии действительно помещают данные в HDFS в обязательном порядке. Узким местом здесь является использование cron.
Если скрипт завершается ошибкой, и тогда его необходимо проверить и запустить вручную, и к тому времени все наши запросы к кустам будут выполнены без обновленных данных. Есть ли способ интегрировать эти данные из сторонних API в рабочие процессы Oozie и быть надежным с ними? Я понимаю, что есть инструмент под названием sqoop
, который я могу использовать в oozie
рабочих процессах, но остается вопрос: если скрипту не удается поместить данные в реляционную базу данных, у нас возникла проблема с нарушенным конвейером данных.