Question

Я ищу "правильный" способ написания кода на Python, который может выполнять работу с выходами заданий Pig.

Вот моя ситуация.Я написал скрипт Pig для обработки большого количества данных и вывода небольшого набора отношений.Количество выходных данных достаточно мало для непосредственного вывода на консоль.Например:

grunt> DUMP results
(Control, column1, column2, column3, column4, column5, column6)
(Treatment1, column1, column2, column3, column4, column5, column6)
(Treatment2, column1, column2, column3, column4, column5, column6)
(Treatment3, column1, column2, column3, column4, column5, column6)
grunt>

В качестве следующего шага я хочу сделать некоторое вычисление чисел на числах в отношениях, например, вычисление p-значений для значимости результатов лечения наблюдателей.Я действительно хотел бы использовать Python для этого: сама Pig явно не предназначена для такого рода задач, и я бы предпочел не переписывать существующий код на Java.Итак, что я хотел бы сделать - это как-то привязать к выводам команды STORE или DUMP из python и продолжить это.Моя проблема в том, чтобы выяснить, как лучше идти вперед.Вот способы, которые я вижу:

Используйте Python для написания UDF, который будет выполнять вычисления.Я могу сделать это;фактически мой сценарий Pig уже вызывает пару пользовательских функций Python.Тем не менее, у меня сложилось впечатление, что пользовательские функции предназначены для работы с одним отношением / линией ввода одновременно, и мне нужно получать данные из нескольких отношений для достижения моей цели.Я могу взломать какое-то хранилище состояний в промежуточных вызовах UDF, но это не похоже на правильное решение.
Использование встроенного Python через Jython в Pig 0.9.1.Я возлагал большие надежды на этот подход, но из ограниченной документации, которую я нашел по этой функции, она, по-видимому, предназначена главным образом для управления потоком работ (каноническим примером является обнаружение сходимости в интерактивных алгоритмах), а не для непосредственной работы с выходными данными.В частности, я вижу документацию о том, как связать метаданные задания, например о том, успешно ли они выполнены или нет, но не о том, как связать выходные данные.Хотелось бы доказать, что это не так.
Пусть скрипт Python вызовет Pig и передаст ему локальные или HDFS пути к желаемым выходным местам, ожидая завершения задания и затем используя Python для чтения / анализа отношений из этогопути.Кажется действительно вздорным.

Есть ли очевидный вариант, который я упускаю, или большой пробел в моем понимании вышеуказанных вариантов?Ваш отзыв будет только приветствоваться!

Donald Miner · Answer 1 · 13 января 2012

Я понимаю ваше разочарование из личного опыта.№ 3 на самом деле очень разумный подход, однако я предлагаю что-то немного другое.Вместо этого используйте оболочку bash-скрипта для выполнения обоих.Это имеет приятную особенность, что вам не нужно будет делать все неуклюжие вызовы оболочки через python.

Что-то вроде:

pig mypigscript.pig ...
mkdir /tmp/pigout/
hadoop fs -get output/part* /tmp/pigout/
cat /tmp/pigout/* | python mypostprocessing.py

Хорошая вещь в этом подходе - вы можете получить действительнофантазия с параметрами, ведением журналов и т. д. На производстве у меня обычно есть разные этапы записи в файлы журналов, проверки на наличие ошибок в фазах и т. д.

Просто чтобы убедить вас, что это правильный подход - выЯ не хочу, чтобы эта небольшая часть обрабатывалась над несколькими записями в редукторе.Это не работает, если у вас есть несколько редукторов и на самом деле ничего не дает, потому что вы не используете параллелизм.Я думаю, что люди склонны вкладывать слишком много своих вычислений в Hadoop и не делают некоторые простые очевидные вещи снаружи.

Привязка к выводу Pig STORE или DUMP в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Привязка к выводу Pig STORE или DUMP в Python

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы