Хотите сравнить две последовательные работы на Hadoop - PullRequest
0 голосов
/ 24 апреля 2011

Я хочу знать, могу ли я сравнить два последовательных задания в Hadoop.Если нет, то я буду признателен, если кто-нибудь скажет мне, как поступить с этим.Чтобы быть точным, я хочу сравнить работу с точки зрения того, что именно две работы сделали?Причиной этого является создание статистики о том, сколько заданий, выполненных в Hadoop, было схожим с точки зрения поведения.Например, сколько раз одна и та же функция сортировки выполнялась для одного и того же ввода.

Например, если первое задание выполняло что-то вроде SortList (A), а какое-то другое задание выполняло SortList (A) + Group (result (SortList (A))). Теперь мне интересно, есть ли в Hadoop какое-то отображение, хранящееся где-нибудь, например, JobID X-> SortList (A).

До сих пор я думал об этой проблеме как о поиске точки входа в Hadoop ипопытаться понять, как создается работа и какая информация хранится с идентификатором вакансии и в какой форме (в форме кода или некотором описании), но я не смог выяснить это успешно.

Ответы [ 2 ]

0 голосов
/ 08 июня 2011

Счетчики Hadoop могут быть хорошим местом для начала.Вы можете определить свои собственные имена счетчиков (например, каждое имя счетчика является набором данных, с которым вы работаете) и увеличивать этот счетчик каждый раз, когда вы выполняете сортировку для него.Однако найти набор данных, над которым вы работаете, может оказаться более сложной задачей.

Вот учебник, который я нашел: http://philippeadjiman.com/blog/2010/01/07/hadoop-tutorial-series-issue-3-counters-in-action/

0 голосов
/ 24 апреля 2011

Нет. Задания Hadoop - это просто программы. У них могут быть любые побочные эффекты. Они могут писать обычные файлы, файлы hdfs или базу данных. Ничто в hadoop не записывает все их действия. Все, что нужно сделать, это управлять расписанием и потоком данных.

...