Question

Я хочу знать, могу ли я сравнить два последовательных задания в Hadoop.Если нет, то я буду признателен, если кто-нибудь скажет мне, как поступить с этим.Чтобы быть точным, я хочу сравнить работу с точки зрения того, что именно две работы сделали?Причиной этого является создание статистики о том, сколько заданий, выполненных в Hadoop, было схожим с точки зрения поведения.Например, сколько раз одна и та же функция сортировки выполнялась для одного и того же ввода.

Например, если первое задание выполняло что-то вроде SortList (A), а какое-то другое задание выполняло SortList (A) + Group (result (SortList (A))). Теперь мне интересно, есть ли в Hadoop какое-то отображение, хранящееся где-нибудь, например, JobID X-> SortList (A).

До сих пор я думал об этой проблеме как о поиске точки входа в Hadoop ипопытаться понять, как создается работа и какая информация хранится с идентификатором вакансии и в какой форме (в форме кода или некотором описании), но я не смог выяснить это успешно.

Matt D · Answer 1 · 08 июня 2011

Счетчики Hadoop могут быть хорошим местом для начала.Вы можете определить свои собственные имена счетчиков (например, каждое имя счетчика является набором данных, с которым вы работаете) и увеличивать этот счетчик каждый раз, когда вы выполняете сортировку для него.Однако найти набор данных, над которым вы работаете, может оказаться более сложной задачей.

Вот учебник, который я нашел: http://philippeadjiman.com/blog/2010/01/07/hadoop-tutorial-series-issue-3-counters-in-action/

bmargulies · Answer 2 · 24 апреля 2011

Нет. Задания Hadoop - это просто программы. У них могут быть любые побочные эффекты. Они могут писать обычные файлы, файлы hdfs или базу данных. Ничто в hadoop не записывает все их действия. Все, что нужно сделать, это управлять расписанием и потоком данных.

Хотите сравнить две последовательные работы на Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Хотите сравнить две последовательные работы на Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

Ответы [ 2 ]

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы