Question

Я начинаю новый проект Hadoop, в котором будет несколько заданий hadoop (и, следовательно, несколько jar-файлов). Используя mercurial для управления исходным кодом, мне было интересно, каков оптимальный способ организации структуры хранилища? Должна ли каждая работа жить в отдельном репо или было бы более эффективно хранить их в одном и том же виде, но разбивать на папки?

Eric Wendelin · Answer 1 · 02 июня 2010

Если вы конвейеризуете задания Hadoop (вывод одного является вводом другого), я обнаружил, что лучше хранить большую часть его в одном и том же хранилище, так как я склонен генерировать много общих методов, которые я могу использоватьв различных работах MR.

Лично я храню потоковые задания в отдельном репо от моих более традиционных заданий, поскольку обычно нет никаких зависимостей.

Планируете ли вы использовать DistributedCache или потоковые задания?Возможно, вы захотите отдельный каталог для файлов, которые вы распространяете.Вы действительно нуждаетесь в JAR за работу Hadoop?Я обнаружил, что не знаю.

Если вы дадите более подробную информацию о том, что вы планируете делать с Hadoop, я смогу посмотреть, что еще могу предложить.

Организация репозитория для проекта Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Организация репозитория для проекта Hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы