Множественный ввод с несколькими мапперами с использованием MRJob - PullRequest
0 голосов
/ 06 октября 2018

Возможно ли реализовать опцию множественных входов с различным отображением для каждого, как доступно в Hadoop с использованием mrjob?Если это так, полезен пример или любая ссылка на документацию.

РЕДАКТИРОВАТЬ: Я пытаюсь реализовать пример, как в этом вопросе: Hadoop множественных входов .Единственное отличие состоит в том, что я хочу сделать это с помощью библиотеки MRJob, поскольку мне приходится работать с Python.

У меня есть данные, поступающие ежедневно.Я вычислю некоторую сводку на уровне дня для источника для дня 1 A в формате:

номер_телефона, call_minutes, datetime_of_event

, ведущий к выводу B, таких как:

номер телефона (разделитель) month_of_year total_call_minutes

Во второй день я получаю A для новой информации о времени и дате.Теперь я хочу предоставить день 1 B и день 2 A двум разным сопоставителям (Mapper M1 и M2 соответственно) одного и того же задания для обработки разных форматов с выводом сопоставителей, имеющих сходный формат ключ / значение.Это будет день 10 * * 2 дня, который является сводной суммой 1 и 2 дня вместе.Эта форма будет продолжаться ежедневно.

Я хотел бы знать, можно ли это сделать с помощью MRJob или любой другой библиотеки на основе python для hadoop.

PS: я думаю, что могу добиться этого, используя один картограф с помощью дополнительногополе ввода и вывода в качестве индикатора типа источника и обрабатывать каждую запись соответственно.Но я не очень заинтересован в использовании этого метода.Вот почему я ищу этот вариант, который, как мне кажется, гораздо чище.

...