Я работаю над приложением, в которое я буду загружать данные в Redshift .
Я хочу загрузить файлы в S3 и использовать COPY команда для загрузки данных в несколько таблиц.
Для каждой такой итерации мне нужно загружать данные в 20 таблиц .
Сейчас я создаю 20 CSV-файлов для загрузки данных в 20 таблиц , причем для каждой итерации будут загружаться созданные файлы 20 . в 20 таблиц . И для следующей итерации новые 20 CSV-файлы будут созданы и выгружены в Redshift .
В текущей системе, которую я имею, каждый CSV-файл может содержать максимум 1000 строк , которые должны быть выгружены в таблицы. Максимум 20000 строк для каждой итерации для 20 таблиц .
Я хотел еще больше повысить производительность. Я прошел через https://docs.aws.amazon.com/redshift/latest/dg/t_Loading-data-from-S3.html
На данный момент я не уверен, сколько времени потребуется для загрузки 1 файла в 1 таблицу Redshift. Действительно ли стоит разделять каждый файл на несколько файлов и загружать их параллельно?
Существует ли какой-либо источник или калькулятор для приблизительной оценки производительности загрузки данных в Redshift таблиц, основанный на количестве столбцов и строк, чтобы я мог решить, стоит ли продолжать разбивать файлы дажепрежде чем перейти к Redshift .