Войти

Запомнить

Регистрация

PullRequest

Лента
Топ
Теги
Новая

Новая

daydreamer 03 апреля 2012 7

hadoop-streaming: автоматизировать постобработку после завершения задания?

0 голосов

daydreamer / 03 апреля 2012

Шаг 1. У меня есть потоковое задание Hadoop, которое основано на переменном времени на количество данных для обработки Шаг 2 - После того, как работа сделана, мне нужно импортировать весь этот дамп данных в mongodb и создать плоский CSV-файл из этого

Вопрос
Можно ли как-нибудь приклеить шаг 2 к шагу 1, используя потоковую передачу hadoop, и избегать выполнения шага 2 вручную?

питон
MongoDB
Hadoop
MapReduce
Hadoop-потоковый

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

0 голосов

RStrad / 03 апреля 2012

Я бы рекомендовал использовать что-то типа https://github.com/Yelp/mrjob или https://github.com/klbostee/dumbo. Специально для mrjob и вашей проблемы http://packages.python.org/mrjob/job.html#writing-multi-step-jobs

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.

Похожие темы

Как обработать 2 файла с разными форматами ввода в Hadoop Streaming?
потоковая передача hadoop не может поддерживать stream.tmpdir
Поиск имени хоста подчиненных узлов в hadoop во время выполнения команды map-Reduce
Потоковая передача Hadoop с помощью Sequencefile очень медленная
MapReduce Редуктор 2-х ключей - Python
Hadoop MapReduce (с использованием Python) запускает KeyError на Pandas DataFrame
Потоковая передача Hadoop с использованием сценария оболочки: редуктор завершается с ошибкой: нет такого файла или каталога
Прогресс карты Mapreduce внезапно резко упал. Так же, как map100% к карте67%
Передать путь ввода Hadoop в качестве аргумента Python
Устраните ошибку «Значение Ошибка :: Нужно более 1 значение для распаковки

...