Схема Spark с использованием bucketBy НЕ совместима с Hive - PullRequest
0 голосов
/ 05 сентября 2018

Я использую версию 2 для записи и сохранения фрейма данных, используя bucketBy.

Таблица создается в Hive, но не с правильной схемой. Я не могу выбрать данные из таблицы улья.

(DF.write
   .format('orc')
   .bucketBy(20, 'col1')
   .sortBy("col2")
   .mode("overwrite")
   .saveAsTable('EMP.bucketed_table1'))

Я получаю сообщение ниже:

Сохранение таблицы источника данных в виде корзины emp. bucketed_table1 в метастафе Hive в специфическом формате Spark SQL, который НЕ совместим с Hive.

Схема улья создается следующим образом:

hive> desc EMP.bucketed_table1;
OK
col                     array<string>           from deserializer

Как сохранить и записать фрейм данных в таблицу кустов, которую можно просмотреть позже?

1 Ответ

0 голосов
/ 05 сентября 2018

Все другие методы DF Writer допускают последующий выбор из этих таблиц с помощью редакторов Hive и Impala, за исключением того, что они не являются Spark-Buckted.

Вам нужно выбрать из сгруппированных через spark.read. ...

Это должно помочь: https://spark.apache.org/docs/latest/sql-programming-guide.html

Ответ на ваш вопрос заключается в том, что в настоящее время невозможно выбрать с помощью Hive или Impala из таблиц с оплеткой Spark.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...