Существует несколько баз данных OLTP Postgres, которые в общей сложности принимают 100 миллионов строк в день.
Также есть Greenplum DWH. Как загрузить эти 100 миллионов строк данных с минимальным преобразованием в Greenplum ежедневно?
Я собираюсь использовать Python для этого.
Я уверен, что выполнение этого традиционным способом (psycopg2 + cursor.execute("INSERT ...
), даже с партиями, займет много времени и создаст узкое место во всей системе.
Есть ли у вас какие-либо предложения, как оптимизировать процесс загрузки данных? Любые ссылки или книги, которые могут помочь, также приветствуются.