Что такое сервер истории заданий в Hadoop и почему обязательно запускать сервер истории перед запуском Pig в режиме Map Reduce? - PullRequest
0 голосов
/ 18 октября 2018

Перед запуском Pig в режиме уменьшения карты вы всегда должны запустить сервер истории, в то время как при попытке выполнить операторы Pig Latin генерируются следующие журналы:

  2018-10-18 15:59:13,709 [main] INFO 
  org.apache.hadoop.mapred.ClientServiceDelegate - Application state 
  is completed. FinalApplicationStatus=SUCCEEDED. **Redirecting to job 
  history server**

  2018-10-18 15:59:14,713 [main] INFO  org.apache.hadoop.ipc.Client - 
  Retrying connect to server: 0.0.0.0/0.0.0.0:10020. Already tried 0 
  time(s); retry policy is 

  RetryUpToMaximumCountWithFixedSleep(maxRetries=10, sleepTime=1000 
  MILLISECONDS)

Как показано в журналах выполнения Pig.Движок пытается соединиться с сервером истории. Объясните, какова роль сервера истории заданий в Hadoop и почему необходимо установить соединение с сервером истории в Pig для задания уменьшения карты

1 Ответ

0 голосов
/ 24 октября 2018

JobTracker или ResourceManager хранит всю информацию о заданиях в памяти.Для завершенных работ, он отбрасывает их, чтобы избежать нехватки памяти.Отслеживание этих прошлых заданий делегируется на сервер JobHistory.

Свиньи-клиенты извлекают статистику счетчика заданий, когда их задания завершаются.Статистика все еще может быть с JobTracker / ResourceManager или свинья может потребоваться запросить сервер JobHistory.Когда сервер JobHistory не работает, он распечатывает эти сообщения журнала, но в итоге клиент все равно должен преуспеть с отсутствующей статистикой.

...