Проверьте приведенное ниже значение конфигурации в вашем pyspark
>>> spark.sparkContext.getConf().get("spark.sql.catalogImplementation")
если значение свойства не установлено на hive
.
Попробуйте передать приведенный ниже conf в оболочке pyspark
--conf spark.sql.catalogImplementation=hive
и снова запустите ваш код.
UPDATE:
Создать запрос dataframe
вне объединения:
val df = spark.sql("""SELECT
*
, 'Home' as HomeOrAway
, HomeTeam as TeamName
FROM adwords_ads_brand
UNION
SELECT
*
, 'Away' as HomeOrAway
, AwayTeam as TeamName
FROM adwords_ads_brand""")
Затем сохраните фрейм данных в виде таблицы, используя функцию .saveAsTable
df.format("<parquet,orc..etc>").saveAsTable("<table_name>")