Я создаю и программно использую свою среду PySpark
с нуля через conda
и pip
pyspark (как я демонстрирую Здесь );вместо использования PySpark
из загружаемого дистрибутива Spark.Как вы можете видеть в первом фрагменте кода URL-адреса выше, я выполняю это посредством (среди прочего) k / v conf-пар в моем скрипте запуска SparkSession.(Кстати, этот подход позволяет мне работать в различных REPL, IDE и JUPYTER).
Однако, что касается настройки поддержки Spark для доступа к базам данных HIVE и хранилищам метаданных, в руководстве говорится следующее:
Настройка Hive
выполняется путем помещения вашего файла hive-site.xml
, core-site.xml
(для конфигурации безопасности) и hdfs-site.xml
(для конфигурации HDFS) в conf/
.
Под conf/
выше они подразумевают каталог conf/
в дистрибутиве Spark.Но pyspark
через pip
и conda
, разумеется, не имеют этого каталога, так как в таком случае можно включить поддержку Spark для базы данных и метастазов HIVE?
Я подозреваю, что это может быть сделаноспециально префиксированными парами SparkConf K / V вида: spark.hadoop.*
(см. здесь );и если да, мне все равно нужно определить, какие директивы HADOOP / HIVE / CORE необходимы.Я думаю, я буду пробовать и ошибаться.:)
Примечание : .enableHiveSupport()
уже включено.
Я буду возиться с spark.hadoop.*
парами K / V, но если кто-нибудь знает, как этосделано случайно, пожалуйста, дайте мне знать.
Спасибо.:)
РЕДАКТИРОВАТЬ : После предоставления решения я обновил содержимое в первом URL выше .Теперь он интегрирует подход к переменным окружения SPARK_CONF_DIR
и HADOOP_CONF_DIR
, который обсуждается ниже.