Загрузка нескольких терабайтных файлов в параллельном исполнении в базу данных SQL облака AZURE - PullRequest
0 голосов
/ 02 ноября 2019

У меня есть несколько терабайтных файлов, которые необходимо загрузить в базу данных, которая находится на высокопроизводительном SQL-сервере AZURE в облаке.

На данный момент я пытаюсь загрузить эти файлы через пакет служб SSIS. и это занимает более 12 часов, чтобы завершить для 5 файлов.

Я считаю, что HDInsight / Data Bricks находятся в Azure для обработки ETL больших данных и анализа данных с использованием Ambari и другого пользовательского интерфейса. Но возможно ли использовать то же самое (HDInsight или DataBricks) для загрузки огромных файлов данных в таблицу / базу данных SQL? (Как использование кластеров для загрузки нескольких файлов в режиме параллельного выполнения)

Любое предложение / помощь очень ценится

1 Ответ

1 голос
/ 03 ноября 2019

Поскольку вы упомянули SSIS, мне было интересно, рассматривали ли вы вариант использования фабрики данных Azure (лично я считаю, что это будет следующая версия SSIS в облаке), операция копирования должна помочь, и она поддерживает параллельное соединение. исполнение. Поскольку вы рассматриваете SQL Azure, нам нужно рассмотреть проблему перегрузки со стороны приемника, я имел в виду сценарий, когда все терабайты файлов пытаются одновременно записать в таблицу SQL.

...