Можно ли использовать Spark с форматом файла ORC без Hive? - PullRequest
0 голосов
/ 08 июня 2018

Я работаю с HDP 2.6.4, а точнее Hive 1.2.1 с TEZ 0.7.0, Spark 2.2.0.

Моя задача проста.Сохраните данные в формате файла ORC, затем используйте Spark для обработки данных.Чтобы добиться этого, я делаю это:

  1. Создание таблицы Hive через HiveQL
  2. Использование Spark.SQL ("select ... from ...") для загрузки данных вдатафрейм
  3. обработка по фрейму данных

Мои вопросы: 1. Какова роль Улья за сценой?2. Можно ли пропустить Улей?

1 Ответ

0 голосов
/ 24 июля 2018

Вы можете пропустить Hive и использовать SparkSQL для запуска команды на шаге 1

В вашем случае Hive определяет схему для ваших данных и предоставляет вам слой запросов для взаимодействия Spark и внешних клиентов

В противном случае spark.orc существует для чтения и записи кадров данных непосредственно в файловой системе

...