Я хочу знать, могу ли я сравнить два последовательных задания в Hadoop.Если нет, то я буду признателен, если кто-нибудь скажет мне, как поступить с этим.Чтобы быть точным, я хочу сравнить работу с точки зрения того, что именно две работы сделали?Причиной этого является создание статистики о том, сколько заданий, выполненных в Hadoop, было схожим с точки зрения поведения.Например, сколько раз одна и та же функция сортировки выполнялась для одного и того же ввода.
Например, если первое задание выполняло что-то вроде SortList (A), а какое-то другое задание выполняло SortList (A) + Group (result (SortList (A))). Теперь мне интересно, есть ли в Hadoop какое-то отображение, хранящееся где-нибудь, например, JobID X-> SortList (A).
До сих пор я думал об этой проблеме как о поиске точки входа в Hadoop ипопытаться понять, как создается работа и какая информация хранится с идентификатором вакансии и в какой форме (в форме кода или некотором описании), но я не смог выяснить это успешно.