Производительность Spark - большой набор данных, сохраненный из Dataframe в hdfs или hive - PullRequest
0 голосов
/ 14 апреля 2019

У меня большой набор данных в Spark Dataframe.Я хочу сохранить эти данные в улье.Какой из следующих вариантов даст мне наилучшую производительность?

  • Сохранить эти данные из SPARK Dataframe в hdfs и создать поверх него внешнюю таблицу Hive?
  • Записывать данные из SPARK Dataframe в таблицу Hive напрямую?

Какой из них даст наилучшую производительность и почему?

1 Ответ

0 голосов
/ 15 апреля 2019

Лучше записать данные из SPARK Dataframe в таблицу Hive напрямую.

Все данные, хранящиеся в таблицах Hive, хранятся в виде файлов в HDFS.

Сохранениеданные в HDFS и создание внешней таблицы Hive поверх этого, кажется, двойная работа.

И Spark имеет функцию сохранения данных, присутствующих в кадре данных, непосредственно в таблицу Hive, при условии, что вам нужно создатьтаблица кустов со схемой, которая находится в фрейме данных, что намного проще.

Производительность Spark при записи данных из фрейма данных в hdfs или в таблицу Hive зависит от настроек кластера.

...