Привет, мне просто нужно небольшое предложение.
В моем проекте они конвертируют все запросы Teradata в (Hive DB) Dataframes-pyspark / Spark-SQL.
Большинство запросов teradata основаны на усечении и загрузке.
Например,
Скажем, в таблице A
10000 записей.
Таблица A ежедневно получает данные из другого источника, скажем, из таблицы M.
Каждый день мы получаем только от 5 до 6 новых записей.
В настоящее время ежедневно мы усекаем все данные из таблицы A и выполняем полную загрузку из таблицы M.
Таблица M содержит столбец update_timestamp, поэтому очень возможна добавочная загрузка, а также таблица содержит только примитивные типы транзакционных данных.
Использование Spark-SQL, который является лучшим способом для написания запроса, должен ли я выполнять инкрементальную или полную загрузку, как в Teradata?