Таблица обновления блоков данных не работает с форматом orc - PullRequest
0 голосов
/ 03 июля 2018

Таблица обновления блоков данных не работает с форматом orc. Я создал таблицу с форматом ORC в Hive metastore, и она работала нормально. Позже я запустил UPDATE TABLE, и эта команда не прошла. Есть ли способ выполнить ОБНОВЛЕНИЕ, используя Databricks?

1 Ответ

0 голосов
/ 03 июля 2018

Дельта блоков данных поддерживает обновления, обновления (слияния) и удаления с поддержкой транзакций. Таблицы хранятся с опцией «USING DELTA», e. g.:

CREATE TABLE events (
  edate DATE,
  eventId STRING,
  eventType STRING,
  data DECIMAL)
 USING DELTA
 PARTITIONED BY (date)
LOCATION 'wasbs://adls2@sample.blob.core.windows.net/managedtables/events';

Данные хранятся в паркетных файлах с дополнительными журналами транзакций. Подробнее см. Databrick Delta Guide .

ORC не поддерживается для транзакций в Spark. Таким образом, если вы хотите обновить данные, хранящиеся с параметром ORC, обновления можно выполнить, создав новый набор строк, который не включает строки, подлежащие обновлению, а затем создайте второй набор строк, который включает только обновленные строки с новыми значениями, а затем объедините два набора строк вместе.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...