Если вы конвейеризуете задания Hadoop (вывод одного является вводом другого), я обнаружил, что лучше хранить большую часть его в одном и том же хранилище, так как я склонен генерировать много общих методов, которые я могу использоватьв различных работах MR.
Лично я храню потоковые задания в отдельном репо от моих более традиционных заданий, поскольку обычно нет никаких зависимостей.
Планируете ли вы использовать DistributedCache или потоковые задания?Возможно, вы захотите отдельный каталог для файлов, которые вы распространяете.Вы действительно нуждаетесь в JAR за работу Hadoop?Я обнаружил, что не знаю.
Если вы дадите более подробную информацию о том, что вы планируете делать с Hadoop, я смогу посмотреть, что еще могу предложить.