Как отправить данные и код в JAVA для выполнения в экосистеме Hadoop - PullRequest
0 голосов
/ 21 марта 2019

Я довольно новичок в Hadoop, и мне довольно сложно понять все.Я вроде концептуальная карта структуры (MapReduce, HDFS ...), но я не нашел ни видео, ни веб-сайтов, ни книг ... с хорошим качеством.Итак, во-первых, я был бы очень признателен, если бы вы поделились со мной, откуда вы узнали Hadoop, а также каков ваш совет.

Во-вторых, и, как говорится в теме, я делаю свой последний проект, и мыхотел бы развернуть на множестве серверов Hadoop Java-код, который реализуется функциональным образом (вроде как Stream API и фактически основан на этом).Эта часть проекта нацелена на использование возможностей Hadoop, когда речь идет об обработке огромных объемов данных, а не выполнении таких кодов на локальном компьютере.Таким образом, как вы можете подумать, необходимо установить соединение между локальной машиной и ПЕРВИЧНЫМ сервером, а также договориться между такими сторонами:

  1. Отправить код и данные на адресПЕРВИЧНЫЙ сервер.
  2. Выполнение кода в экосистеме Hadoop.
  3. Извлеченные обработанные данные на локальный компьютер.

Кроме того, требуется создать что-то вродеконтейнер функций на сервере, поэтому их не нужно повторно загружать.

Подводя итог,

enter image description here

ThisЭто общее описание того, что мы хотим сделать, и, поскольку у меня нет ни малейшего представления, с чего мне начать, я был бы очень признателен, если бы кто-нибудь из вас смог пролить немного света.

Дайте мне знать, что-тонеясно, я пытался объяснить это как можно лучше.

С уважением, Томас.

...