Spark & ​​PySpark: контроль доступа на уровне таблицы? - PullRequest
0 голосов
/ 16 октября 2019

Мы пытаемся разрешить различным группам использовать spark / pyspark для доступа к данным в HDFS.

Доступ к данным в Hive / Presto контролируется Apache Ranger, поэтому некоторые конфиденциальные данные могут быть лучше защищены.

Однако после некоторого поиска я не нашел много вещей, связанных с контролем доступа spark (на уровне таблицы). И некоторые коммерческие дистрибутивы построили их, например, https://docs.databricks.com/administration-guide/access-control/table-acls/table-acl.html


Мои вопросы

  • Как выполнить контроль доступа на уровне таблицы для spark / pyspark,под env, например Zeppelin, Jupyter?

  • Есть ли решение с Apache Ranger или Apache Sentry?

  • Если мне нужно реализовать себя, с чего мне начать?

Спасибо!

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...