лучший способ интеграции внешних API в Hadoop - PullRequest
0 голосов
/ 26 октября 2018
  1. Мы используем hive over hdfs для автоматизации нашей системы отчетности.
  2. Наш импорт в HDFS из сторонних API запланирован через cronjob для сценариев R.

    Проблема в том, что если одному из импортеров не удалось обновить новые данные в HDFS (по какой-либо причине), это нарушает нашу отчетность за день, поскольку большинство наших отчетов (запросов Hive) взаимосвязаны.

Мы должны убедиться, что эти сценарии действительно помещают данные в HDFS в обязательном порядке. Узким местом здесь является использование cron.

Если скрипт завершается ошибкой, и тогда его необходимо проверить и запустить вручную, и к тому времени все наши запросы к кустам будут выполнены без обновленных данных. Есть ли способ интегрировать эти данные из сторонних API в рабочие процессы Oozie и быть надежным с ними? Я понимаю, что есть инструмент под названием sqoop, который я могу использовать в oozie рабочих процессах, но остается вопрос: если скрипту не удается поместить данные в реляционную базу данных, у нас возникла проблема с нарушенным конвейером данных.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...