Apache PIG вопросы - PullRequest
       17

Apache PIG вопросы

0 голосов
/ 04 июля 2011

У меня есть несколько вопросов по выполнению заданий PIG Script / Map-Reduce.

  1. Я знаю, что pig создает логические, физические, а затем планы выполнения до того, как она действительно начнет выполнять задание карты / сокращения; Я могу посмотреть на логические / физические планы, используя команду объяснение <псевдоним_символа> ; Но как мне просмотреть план выполнения (который я предполагаю перечислить другую карту / сократить запланированные задачи)? В ходе выполнения свиньи я вижу, что создано много заданий (карта / уменьшение пары). Хотите понять, что решает каждое из этих заданий.

  2. Есть ли какое-то определенное руководство, которое я могу использовать, чтобы понять созданные планы, потому что трудно понять, что такое размолвка.

  3. Я могу изменить количество заданий на карте, изменив количество блоков входного файла. Могу ли я контролировать количество сокращенных рабочих мест? Как установить количество редукторов?

  4. Каков размер кучи памяти по умолчанию в узлах картографа / редуктора? Какие параметры работы отражают это? Смогу ли я изменить кучу памяти с помощью опции -Xmx 1024m ? Мои задания раньше не работали, когда я настраивал кучную память таким образом - может быть, есть некоторые ограничения на то, какие значения могут быть предоставлены?

Большое спасибо!

Ответы [ 2 ]

2 голосов
/ 27 апреля 2015
  1. «Объяснить (команда свиньи)» ИМЯ-АЛИАС объясняет физический план (в терминах «Карта сокращает задания»)

  2. Псевдоним будет сгруппирован в задании MR. Во время самой фазы плана видно, что все псевдонимы были сгруппированы в данный MR

  3. Для управления числом редукторов можно использовать «ИСПОЛЬЗОВАНИЕ ПАРАЛЛЕЛЬНЫХ_показанных_данных» при записи объединений, группового режима или «Задать по умолчанию_параллельный желаемый №» при запуске сценария PIG.

  4. Это зависит от того, где находится одна бегущая свинья. если его MRv1: установите mapred.java.opts -Xmx в mrv2: установите mapred.map.size, установите mapred.map.java.opts -Xmx

2 голосов
/ 27 октября 2011
  1. Существуют различные виды планов, сгенерированных объяснением. Укажите путь к каталогу вместо файла, чтобы получить все 3 плана из "объяснения".

  2. Понятия не имею.

  3. set default_parallel 10 установит число сокращенных заданий равным 10.

  4. Это должно быть в ваших настройках hadoop.

...