Question

Мы устанавливаем новые каталоги кода уровня проекта, в которых будут размещаться скрипты PySpark, hive, Sqoop и оболочки для различных подпроектов.Нам нужно спланировать структуру каталогов кода с учетом долгосрочных целей.

В настоящее время у меня есть структура, подобная -

Conf/
Scirpts/
  - hql
  - shell
  - pyspark
  ...

, но структура выше запуталась, так как несколько подпроектов начинают иметь коды, слишком много файлови слишком много, чтобы управлять и трудно искать.

Может кто-нибудь предложить, какой идеальный способ или лучший способ организовать каталоги кода в соответствии с прошлым опытом?

cricket_007 · Answer 1 · 30 апреля 2019

Учитывая, что код обычно отправляется с граничного узла, я бы предложил ограничить доступ по SSH для определенных пользователей, а затем разделить HDFS хотя бы на учетные записи пользователей ... HDFS уже имеет каталог /user, поэтому начнем с него.

Hortonworks, по крайней мере, помещает общие файлы для Hive в /apps/hive/, Spark в /apps/spark и т. Д. Таким образом, есть место для размещения общих библиотек.

Если у вас есть специфичные для проекта файлы, которые нельзя поместить в один каталог, и вам нужны более мелкие ACL, чем в пользовательских каталогах, тогда /projects или просто новые папки в корне HDFS должны подойти.

Подход OCD для разделения полностью изолированных проектов заключается в настройке Федерации HDFS и пространств имен , где у вас будет NameNode для каждой крупной инициативы в компании.

как структурировать каталоги кода в hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

как структурировать каталоги кода в hadoop

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы