Процесс записи в внешнюю таблицу улья - PullRequest
0 голосов
/ 10 мая 2019

Я хочу иметь внешнюю таблицу Partitioned Hive, чтобы только данные внешнего процесса искры записывали в нее данные (не обращайте внимания на эту программу Spark, поскольку вопрос не об этой программе Spark).Теперь я хочу убедиться, что я выполняю правильные шаги для размещения такой настройки:

  1. Создайте внешнюю таблицу с местоположением, являющимся папкой, в которую пишет программа spark.
  2. Пусть программа Spark запишет в эту папку и удостоверится, что данные записаны правильно и разбиты на разделы.

  3. Каждый раз, когда программа Spark выполняет запись в папку, затем выполняйте следующую команду, чтобы убедиться, что Hive знает о новых данных:

msck repair table myTable

Теперь у меня следующие вопросы:

  1. Правильны ли вышеуказанные шаги?
  2. Каковы требования для записи данных в эту папку?Например, порядок столбцов в определении таблицы и порядок записи столбцов Spark должны быть одинаковыми?Обратите внимание, что данные записываются с включенными заголовками.
  3. Требуется ли запускать таблицу восстановления msck myTable каждый раз, когда Spark записывает новые данные в папку, или это необходимо, только если создаются новые разделы?
Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...