Организация репозитория для проекта Hadoop - PullRequest
6 голосов
/ 02 июня 2010

Я начинаю новый проект Hadoop, в котором будет несколько заданий hadoop (и, следовательно, несколько jar-файлов). Используя mercurial для управления исходным кодом, мне было интересно, каков оптимальный способ организации структуры хранилища? Должна ли каждая работа жить в отдельном репо или было бы более эффективно хранить их в одном и том же виде, но разбивать на папки?

1 Ответ

1 голос
/ 02 июня 2010

Если вы конвейеризуете задания Hadoop (вывод одного является вводом другого), я обнаружил, что лучше хранить большую часть его в одном и том же хранилище, так как я склонен генерировать много общих методов, которые я могу использоватьв различных работах MR.

Лично я храню потоковые задания в отдельном репо от моих более традиционных заданий, поскольку обычно нет никаких зависимостей.

Планируете ли вы использовать DistributedCache или потоковые задания?Возможно, вы захотите отдельный каталог для файлов, которые вы распространяете.Вы действительно нуждаетесь в JAR за работу Hadoop?Я обнаружил, что не знаю.

Если вы дадите более подробную информацию о том, что вы планируете делать с Hadoop, я смогу посмотреть, что еще могу предложить.

...