Question

Я хочу использовать Apache pig для преобразования / объединения данных в двух файлах, но я хочу реализовать их шаг за шагом, что означает, что тестирование их на реальных данных, но с небольшим размером (10 строк, например)можно использовать свинью, которая читает из STDIN и выводит в STDOUT?

Guy · Answer 1 · 29 февраля 2012

В основном Hadoop поддерживает потоковую передачу различными способами , но в Pig изначально отсутствовала поддержка загрузки данных через потоковую передачу.Однако есть некоторые решения.

Вы можете проверить HStreaming :

A = LOAD 'http://myurl.com:1234/index.html' USING HStream('\n') AS (f1, f2);

NerdyNick · Answer 2 · 28 февраля 2012

Ответ - нет. Данные должны быть в кластере на узлах данных, прежде чем какое-либо задание MR может даже выполнить данные.

Однако, если вы используете небольшую выборку данных и просто хотите сделать что-то простое, вы можете использовать Pig в локальном режиме и просто записать stdin в локальный файл и запустить его через свой скрипт.

Но больший вопрос возникает, почему вы хотите использовать MR / Pig для потока данных? Это было и не предназначено для этого типа использования.

Может ли Apache Pig загружать данные из STDIN вместо файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Может ли Apache Pig загружать данные из STDIN вместо файла?

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы