Запуск веб-выборок из кластера Hadoop - PullRequest
1 голос
/ 01 июня 2011

В блоге - http://petewarden.typepad.com/searchbrowser/2011/05/using-hadoop-with-external-api-calls.html - предлагается вызывать внешние системы (запрашивать API Twitter или сканировать веб-страницы) из кластера Hadoop.

Для системы, которую я сейчас разрабатываю, существуют как быстрые, так и медленные (массовые) подсистемы. Данные извлекаются из API Twitter, а также для быстрого индивидуального поиска. Это могут быть сотни тысяч (даже миллионов) внешних запросов в день. Содержимое веб-страниц также извлекается для дальнейшей обработки - по крайней мере, с той же шкалой запросов.

Помимо потенциальных побочных эффектов для внешнего источника (изменение данных таким образом, чтобы они отличались при следующем запросе), каковы будут плюсы или минусы использования Hadoop таким образом? Это действительный и полезный метод массового и / или быстрого поиска данных?

1 Ответ

2 голосов
/ 01 июня 2011

Плюс: это супер простой способ распределить работу, которую необходимо выполнить.

Минус: из-за того, как Hadoop восстанавливается после сбоев, вы должны быть очень осторожны в управлении тем, что работает, а что нет (что вы определенно можете сделать, это просто то, на что нужно обратить внимание). Если, например, происходит сбой редукции, то все задания карты, которые передают этот раздел, также должны быть перезапущены. Очевидно, что это, скорее всего, будет работа без редуктора, но это все еще верно для мапперов ... что произойдет, если выполняется половина вызовов, а затем происходит сбой задания, поэтому оно переносится?

Вы могли бы использовать какую-то высокопроизводительную систему для управления фактически выполненными или какими-либо другими вызовами. Но это определенно может быть соответствующим образом использовано для этого.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...