Alteryx - массовое копирование с SQL Server на Greenplum - нужны советы для повышения производительности - PullRequest
0 голосов
/ 05 сентября 2018

Нужно посоветовать здесь: используя Alteryx Designer, я извлекаю большой набор данных из SQL Server (10M строк) и мне нужно перейти в Greenplum DB

Я пытался как с подключением с использованием входных данных (SQL Server) и выходных данных (GP), а также подключения In-DB (SQL Server) и записи данных в DB (GP)

Любой подход требует завершения жизни в тот момент, когда я должен отменить процесс (чтобы дать представление, в выходные дни он длился 18 часов и продвинулся не дальше, чем на 1%)

Любой хороший совет или хитрость для ускорения такой массовой загрузки данных будет очень и очень признателен!

Я могу контролировать или вносить изменения в SQL Server и Alteryx для повышения производительности, но не в Greenplum

Заранее спасибо.

С уважением, Erick

Ответы [ 2 ]

0 голосов
/ 21 сентября 2018

Ежедневно мы переносим миллионы строк с серверов SQL на Greenplum и используем инструмент с открытым исходным кодом, который называется Outsourcer. Это отличный инструмент, и мы позаботимся об очистке и прочем. Мы используем этот инструмент в течение последних 3,5 лет, и никаких проблем до сих пор. Он учитывает весь параллелизм и миллионы строк загружаются в течение нескольких минут.

Поддерживается добавочная или полная загрузка. Если вам нужна поддержка, Джон Роберт, владелец Аутсорсера, ответит на ваше письмо в течение нескольких минут. Вот ссылка на инструмент

https://www.pivotalguru.com/

0 голосов
/ 10 сентября 2018

Я сломаю подходы, которые вы используете.

  • Вы не сможете использовать инструменты IN-DB, поскольку базы данных отличаются, следовательно, вы не можете перенести обработку в БД ...

  • Используя стандартные инструменты Alteryx, вы переносите всю таблицу на свою машину, а затем снова выталкиваете ее, есть несколько способов сделать это в зависимости от того, где находится ваша блокировка.

  • Рассматривая сначала извлечение из SQL, 10M строк не так уж много, и вы можете разделить процесс и записать его в виде yxdb. Если это не удастся или займет несколько часов, вам необходимо проверить соединение с SQL Server или ресурсы, доступные на SQL Server.

  • Затем для загрузки в Greenplum в настоящее время нет массового загрузчика PostgreS, поэтому вы можете либо просто попытаться записать всю таблицу, либо записать сегменты таблицы во временные таблицы в Greenplum, а затем выполнить команда для объединения этих таблиц.

...