как структурировать каталоги кода в hadoop - PullRequest
0 голосов
/ 30 апреля 2019

Мы устанавливаем новые каталоги кода уровня проекта, в которых будут размещаться скрипты PySpark, hive, Sqoop и оболочки для различных подпроектов.Нам нужно спланировать структуру каталогов кода с учетом долгосрочных целей.

В настоящее время у меня есть структура, подобная -

Conf/
Scirpts/
  - hql
  - shell
  - pyspark
  ...

, но структура выше запуталась, так как несколько подпроектов начинают иметь коды, слишком много файлови слишком много, чтобы управлять и трудно искать.

Может кто-нибудь предложить, какой идеальный способ или лучший способ организовать каталоги кода в соответствии с прошлым опытом?

1 Ответ

1 голос
/ 30 апреля 2019

Учитывая, что код обычно отправляется с граничного узла, я бы предложил ограничить доступ по SSH для определенных пользователей, а затем разделить HDFS хотя бы на учетные записи пользователей ... HDFS уже имеет каталог /user, поэтому начнем с него.

Hortonworks, по крайней мере, помещает общие файлы для Hive в /apps/hive/, Spark в /apps/spark и т. Д. Таким образом, есть место для размещения общих библиотек.

Если у вас есть специфичные для проекта файлы, которые нельзя поместить в один каталог, и вам нужны более мелкие ACL, чем в пользовательских каталогах, тогда /projects или просто новые папки в корне HDFS должны подойти.

Подход OCD для разделения полностью изолированных проектов заключается в настройке Федерации HDFS и пространств имен , где у вас будет NameNode для каждой крупной инициативы в компании.

...