Контекст
Я хочу использовать Spark 2 для некоторых элементарных ETL, но наши администраторы Hadoop имеют очень разные приоритеты и пока не могут установить его.
Проблема
Проще говоря, я хочу знать, можно ли настроить сеанс Spark, работающий на моем локальном компьютере, на:
- Подключение к кластеру Hadoop (без установленного Spark 2)
- Аутентификация в кластере, чтобы я мог получить доступ к его таблицам Hive
- Считывание данных из его таблиц Hive на мой локальный компьютер
- Обработка и преобразование данных на моем локальном компьютере
- Запись результата в другую удаленную систему RDBMS (например, PostgreSQL)
У меня нет доступа пользователя root на сервере,Политика администратора не позволяет этим системам напрямую взаимодействовать друг с другом, но мой локальный компьютер может читать - и записывать - либо.
Эти ранее отвеченные вопросы не дали рабочего решения:
Многиеспасибо, если вы можете помочь!(Даже если он просто говорит: «Нет, вам нужно установить Spark в кластер Hadoop, чтобы прочитать его данные.» Мне просто нужно знать.)