У меня есть автономный спарк-кластер в Kubernetes, и я хочу использовать его для загрузки некоторых временных представлений в память и показа их через JDBC с использованием сервера Thrift.
Я уже получил его без защиты, отправивзадание spark (в моем случае pyspark) и запуск thrift-сервера в этом же задании, чтобы я мог получить доступ к временным представлениям.
Поскольку мне нужно будет предоставить некоторые конфиденциальные данные, я хочу применить хотя бы проверку подлинностимеханизм.
Я много читал, и я вижу в основном 2 способа сделать это:
- PAM - который не рекомендуется для производства, так как некоторые критические файлы должны иметь разрешениеразрешение для пользователя рядом с root.
- Kerberos - который представляется наиболее подходящим для этой ситуации.
Мой вопрос: - Для автономного искрового кластера (работает на K8s)Kerberos - лучший подход?Если не какой?- Если Kerberos является лучшим, действительно сложно найти какое-либо руководство или пошаговое руководство по настройке Kerberos для работы с сервером Sprike Thrift, особенно в моем случае, когда я не использую какой-либо конкретный дистрибутив (MapR, Hortonworks и т. Д.).
Ценю вашу помощь