как бороться с общими правами доступа к файлам в автономном кластере спарк? - PullRequest
0 голосов
/ 06 мая 2018

Мы настраиваем искровой кластер, используя автономный метод развертывания. Мастер и все работники смотрят на общую (сетевую) файловую систему. (Это кластер, который время от времени раскручивается, чтобы выполнять тяжелую обработку данных, не требуя (красивой, но интенсивной) HDFS).

Службы работают как пользователь spark с группой spark. Мой пользователь является членом группы spark. Когда я запускаю сеанс, в кластере создается приложение. Это приложение может читать любой файл в общей файловой системе, который может прочитать группа spark.

Но когда я записываю в него файл, в этой настройке (например: orders.write.parquet("file:///srv/spark-data/somefile.parquet")) различные пользователи выполняют разные шаги - в зависимости от того, какая служба в приложении его выполняет.

Кажется, каталог создан моим пользователем. Пользователь spark записывает в него файлы (в _tevent). И тогда мой пользователь может переместить эти временные файлы в конечный пункт назначения.

И вот где это идет не так. Эти временные файлы имеют доступ read только для группы spark. Поэтому мой пользователь не может переместить их через постоянное место.

Я еще не нашел решения ни a) чтобы все работники работали под моей учетной записью пользователя, либо b) имели права доступа к файлам для этих временных файлов как read + write.

Мой текущий обходной путь для создания моего сеанса в качестве пользователя spark. Это, конечно, хорошо работает, но не идеально по понятным причинам.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...