Краткий ответ: может быть много способов сделать то, что вы пытаетесь.
Длинный ответ: Это может быть сделано любым из нижеперечисленныхпути в целом.
- Использование любого языка программирования общего назначения (Java, Python, C / C ++,. net и т. д.)
- Использование любого готового ETL инструменты (например, Pantaho, клей AWS и т. д.)
- Другие способы
Поскольку вы сказали, что вы наивны, я хотел бы объяснить вам простой подход, который я использовал для сложных ETL вмое прошлое (то есть простые сценарии оболочки), хотя подумайте о вашем сценарии использования и сопоставьте его с различными вариантами, которые я предложил, и используйте наиболее подходящий вам.
- Создайте сценарии оболочки / пакетной обработки для запуска SQL.
- Настройка задания cron для запуска сценария оболочки # 1.
Здесь приведен пример сценария оболочки для начала.Убедитесь, что для запуска команды beow, psql
команда должна быть установлена на одном из ваших EC2, откуда вы будете подключены к Redshift
#!/bin/sh
# example comment!
echo "Executing the create sales table"
psql postgresql://username:password@redshift-url:port/databasename?sslmode=require -c
"create table sales( Colunm1 varchar(55), Colunm2 varchar(255), updated_at timestamp);"
echo "Sales table created."
Это только дает вам некоторые указатели для начала.Существует так много плюсов / минусов каждого подхода, и, как я уже сказал, вы должны взвесить все плюсы / минусы, прежде чем принимать решение о любом подходе.