Что лучше при полной загрузке Spark-SQL или инкрементальной загрузке - PullRequest
0 голосов
/ 09 марта 2019

Привет, мне просто нужно небольшое предложение.

В моем проекте они конвертируют все запросы Teradata в (Hive DB) Dataframes-pyspark / Spark-SQL.

Большинство запросов teradata основаны на усечении и загрузке.

Например,

Скажем, в таблице A

10000 записей.

Таблица A ежедневно получает данные из другого источника, скажем, из таблицы M.

Каждый день мы получаем только от 5 до 6 новых записей.

В настоящее время ежедневно мы усекаем все данные из таблицы A и выполняем полную загрузку из таблицы M.

Таблица M содержит столбец update_timestamp, поэтому очень возможна добавочная загрузка, а также таблица содержит только примитивные типы транзакционных данных.

Использование Spark-SQL, который является лучшим способом для написания запроса, должен ли я выполнять инкрементальную или полную загрузку, как в Teradata?

...