Question

Мы используем hive over hdfs для автоматизации нашей системы отчетности.
Наш импорт в HDFS из сторонних API запланирован через cronjob для сценариев R.

Проблема в том, что если одному из импортеров не удалось обновить новые данные в HDFS (по какой-либо причине), это нарушает нашу отчетность за день, поскольку большинство наших отчетов (запросов Hive) взаимосвязаны.

Мы должны убедиться, что эти сценарии действительно помещают данные в HDFS в обязательном порядке. Узким местом здесь является использование cron.

Если скрипт завершается ошибкой, и тогда его необходимо проверить и запустить вручную, и к тому времени все наши запросы к кустам будут выполнены без обновленных данных. Есть ли способ интегрировать эти данные из сторонних API в рабочие процессы Oozie и быть надежным с ними? Я понимаю, что есть инструмент под названием sqoop, который я могу использовать в oozie рабочих процессах, но остается вопрос: если скрипту не удается поместить данные в реляционную базу данных, у нас возникла проблема с нарушенным конвейером данных.

лучший способ интеграции внешних API в Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

лучший способ интеграции внешних API в Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 0 ]

Похожие темы