Impala: когда использовать refre sh, аннулировать метаданные и изменять таблицы, восстанавливать разделы при внесении изменений в файлы HDFS? - PullRequest
0 голосов
/ 28 мая 2020

Я пишу, перезаписываю и удаляю файлы в HDFS. Я пишу как секционированные, так и несекционированные наборы данных. Таблицы Impala создаются из этих файлов, и я хотел бы убедиться, что то, что находится в базовых файлах, должным образом отражается в таблицах impala.

Отказ от ответственности: мне известно об этой документации и все еще не понимаю, как правильно использовать.

Пример:

Я знаю, что после того, как я запишу секционированный набор данных в HDFS и хочу создать таблицу, мне нужно сделать что-то вроде:

CREATE TABLE my_schema.my_table
LIKE PARQUET 'path_to_parquet_file'
partitioned by (partitioning_cols)
STORED AS PARQUET
LOCATION 'path_to_parent_directory';

ALTER TABLE my_schema.my_table RECOVER PARTITIONS;
  1. Что мне нужно делать при удалении некоторых разделов?
  2. Что мне нужно делать, когда я изменяю некоторые файлы в одном или нескольких разделах?
  3. Что мне нужно делать, когда я добавляю новые разделы?
  4. В каких именно ситуациях мне нужно refresh, invalidate medatada или recover partitions?
  5. Есть ли изменение поведения, если у меня нет секционированного набора данных?
...