Нужен вариант использования или пример для Spark's Relationship to Hive - PullRequest
0 голосов
/ 28 сентября 2019

Я читаю Руководство по определению Spark. В разделе «Отношения Spark с кустом». Следующие строки дают

. С помощью Spark SQL вы можете подключиться к вашему метастаферу Hive (если он у вас уже есть).и доступ к метаданным таблицы для сокращения списка файлов при доступе к информации. Это популярно для пользователей, которые переходят из устаревшей среды Hadoop и начинают выполнять все свои рабочие нагрузки с помощью Spark. "

Я не могу понять, что этоозначает.Кто-то, пожалуйста, помогите мне с примерами для приведенного выше варианта использования.

1 Ответ

0 голосов
/ 29 сентября 2019

Spark, являющийся новейшим инструментом в экосистеме Hadoop, связан с более ранними инструментами Hadoop.Улей был самым популярным до недавнего времени.На большинстве платформ Hadoop хранятся данные в таблицах Hive, доступ к которым можно получить с помощью Hive в качестве механизма SQL.Тем не менее, Spark также может делать то же самое.

Таким образом, в данных утверждениях упоминается, что вы можете подключиться к метастагу Hive (который содержит информацию о существующих таблицах, базах данных, их расположении, схеме, типах файлов и т. Д.), А затем вы можете запускать аналогичные запросы Hive к ним.Как и в случае с Hive.

Ниже приведены два примера, которые вы можете сделать с помощью spark, если сможете подключиться к метастагу Hive.

spark.sql("show databases")
spark.sql("select * from test_db.test_table")

Надеюсь, это ответ на ваш вопрос.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...