У меня есть несколько таблиц в Hive, каждый день новый csv-файл будет добавляться в расположение таблицы hive. Когда новые данные доступны, мне нужно обновить таблицы, чтобы я мог видеть новые данные в таблицах.
шагов, которые мы выполняем для загрузки данных:
- сначала создайте таблицу со свойствами csv serde
- создать еще один стол с паркетным столом для производства
- вставить данные из первой таблицы во вторую таблицу.
Начальная:
1,
2, б
3, с
Новый файл:
* * 4 1 022, D
Я искал в Google и нашел, что это можно сделать через:
1) инкрементная таблица, загрузка нового файла в инкрементную таблицу и выполнение оператора вставки. В моем случае у нас более 100 таблиц, поэтому мы не хотим создавать эти многочисленные инкрементные таблицы
2) Использование команды обновления через оболочку Impala.
Наши исходные таблицы хранятся в формате csv serde. поэтому, когда я обновляю исходные таблицы, я получаю сообщение об ошибке. impala не поддерживает свойства serde.
Можете ли вы предоставить решение в моем случае.