Question

У меня большой набор данных в Spark Dataframe.Я хочу сохранить эти данные в улье.Какой из следующих вариантов даст мне наилучшую производительность?

Сохранить эти данные из SPARK Dataframe в hdfs и создать поверх него внешнюю таблицу Hive?
Записывать данные из SPARK Dataframe в таблицу Hive напрямую?

Какой из них даст наилучшую производительность и почему?

Ashwin S · Answer 1 · 15 апреля 2019

Лучше записать данные из SPARK Dataframe в таблицу Hive напрямую.

Все данные, хранящиеся в таблицах Hive, хранятся в виде файлов в HDFS.

Сохранениеданные в HDFS и создание внешней таблицы Hive поверх этого, кажется, двойная работа.

И Spark имеет функцию сохранения данных, присутствующих в кадре данных, непосредственно в таблицу Hive, при условии, что вам нужно создатьтаблица кустов со схемой, которая находится в фрейме данных, что намного проще.

Производительность Spark при записи данных из фрейма данных в hdfs или в таблицу Hive зависит от настроек кластера.

Производительность Spark - большой набор данных, сохраненный из Dataframe в hdfs или hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Производительность Spark - большой набор данных, сохраненный из Dataframe в hdfs или hive

Пожалуйста, войдите или зарегистрируйтесь чтобы ответить на этот вопрос.

1 Ответ

Пожалуйста, войдите или зарегистрируйтесь что бы добавить комментарий.

Похожие темы