Может ли Apache Pig загружать данные из STDIN вместо файла? - PullRequest
2 голосов
/ 20 февраля 2012

Я хочу использовать Apache pig для преобразования / объединения данных в двух файлах, но я хочу реализовать их шаг за шагом, что означает, что тестирование их на реальных данных, но с небольшим размером (10 строк, например)можно использовать свинью, которая читает из STDIN и выводит в STDOUT?

Ответы [ 2 ]

2 голосов
/ 29 февраля 2012

В основном Hadoop поддерживает потоковую передачу различными способами , но в Pig изначально отсутствовала поддержка загрузки данных через потоковую передачу.Однако есть некоторые решения.

Вы можете проверить HStreaming :

A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);
0 голосов
/ 28 февраля 2012

Ответ - нет. Данные должны быть в кластере на узлах данных, прежде чем какое-либо задание MR может даже выполнить данные.

Однако, если вы используете небольшую выборку данных и просто хотите сделать что-то простое, вы можете использовать Pig в локальном режиме и просто записать stdin в локальный файл и запустить его через свой скрипт.

Но больший вопрос возникает, почему вы хотите использовать MR / Pig для потока данных? Это было и не предназначено для этого типа использования.

...