Периодические задания Hadoop (лучшая практика) - PullRequest
2 голосов
/ 29 июня 2010

Клиенты, которые могут загружать URL-адреса в любое время в базу данных, и приложение должно обрабатывать URL-адреса как можно скорее.Поэтому мне нужно периодически запускать задания hadoop или автоматически запускать задание hadoop из другого приложения (любой скрипт идентифицирует новые ссылки, генерирует данные для задания hadoop и запускает задание).Для сценариев PHP или Python я мог бы настроить cronjob, но что лучше всего использовать для периодических заданий hadoop (подготовить данные для hadoop, загрузить данные, запустить задание hadoop и переместить данные обратно в базу данных?

Ответы [ 2 ]

1 голос
/ 08 июля 2010

Взгляните на Oozie, новую систему рабочих процессов от Y !, которая может запускать задания на основе разных триггеров.Хороший переполнение представлено Alejandro здесь: http://www.slideshare.net/ydn/5-oozie-hadoopsummit2010

0 голосов
/ 29 июня 2010

Если вы хотите, чтобы URL-адреса обрабатывались как можно скорее, они будут обрабатываться по очереди.Я рекомендую подождать некоторое количество ссылок (или МБ ссылок, или, например, 10 минут каждый день).
И выполнять их пакетную обработку (я выполняю свою обработку ежедневно, но эта работа занимает несколько часов)

...