Лучше записать данные из SPARK Dataframe в таблицу Hive напрямую.
Все данные, хранящиеся в таблицах Hive, хранятся в виде файлов в HDFS.
Сохранениеданные в HDFS и создание внешней таблицы Hive поверх этого, кажется, двойная работа.
И Spark имеет функцию сохранения данных, присутствующих в кадре данных, непосредственно в таблицу Hive, при условии, что вам нужно создатьтаблица кустов со схемой, которая находится в фрейме данных, что намного проще.
Производительность Spark при записи данных из фрейма данных в hdfs или в таблицу Hive зависит от настроек кластера.