Мы пытаемся разрешить различным группам использовать spark / pyspark для доступа к данным в HDFS.
Доступ к данным в Hive / Presto контролируется Apache Ranger
, поэтому некоторые конфиденциальные данные могут быть лучше защищены.
Однако после некоторого поиска я не нашел много вещей, связанных с контролем доступа spark (на уровне таблицы). И некоторые коммерческие дистрибутивы построили их, например, https://docs.databricks.com/administration-guide/access-control/table-acls/table-acl.html
Мои вопросы
Как выполнить контроль доступа на уровне таблицы для spark / pyspark,под env, например Zeppelin
, Jupyter
?
Есть ли решение с Apache Ranger
или Apache Sentry
?
Если мне нужно реализовать себя, с чего мне начать?
Спасибо!