Почему бы не добавить этот gdpr-hive-udfs-hadoop.jar в качестве внешнего jar-файла в ваш проект, а затем сделать это, чтобы зарегистрировать udf:
val sqlContext = sparkSess.sqlContext
val udf_parallax = sqlContext.udf .register("udf_parallax", com.abc.edw.hww.etl.udf.parallax.ParallaxHiveHash _)
Обновление:
1. Если ваш куст работает на удаленном сервере:
val sparkSession= SparkSession.builder()
.appName("Opens")
.config("hive.metastore.uris", "thrift://METASTORE:9083")
.config("set hive.exec.dynamic.partition.mode", "nonstrict")
.enableHiveSupport()
.getOrCreate()
sparkSession.sql("""create temporary function udf_parallax as 'com.abc.edw.hww.etl.udf.parallax.ParallaxHiveHash' USING JAR 's3://bx-analytics-softwares/gdpr_hive_udfs/gdpr-hive-udfs-hadoop.jar'""");
2. Если куст не запущен на удаленном сервере:
Скопируйте hive-site.xml из каталога / hive / conf / в каталог / spark / conf / и создайте SparkSession , как вы упомянули в вопросе