Лучший способ передачи и передачи большого количества данных с SQL Server на Azure SQL Server.Фабрика данных Azure, HDInsight и т. Д. - PullRequest
0 голосов
/ 17 декабря 2018

Мне нравится находить лучшие способы передачи 20 ГБ данных SQL из базы данных SQL Server, установленной на клиентском локальном сервере Client, в наш Azure SQL Server, Source, на S4 с 200 DTU производительность за 320 долларов в месяц.При первоначальной настройке мы настраиваем фабрику данных Azure, которая копирует более 20 ГБ через несколько копий таблиц, например, содержимое таблицы клиента A в исходную таблицу A, содержимое таблицы клиента B в исходную таблицу B и т. Д. Затем мы запускаем многоЭкстракторы хранят процедуры, которые вставляют в таблицы Stage данные из исходных таблиц, объединяя эти исходные таблицы вместе, например, соединение источника A соединяется с источником B. После этого создаются инкрементные копии, но первоначальная настройка выполняется вечно.

В настоящее время время копирования на S4 составляет около 12 часов, а время извлечения - 4 часа.Повышение уровня производительности до S9 с 1600 DTU за 2400 долл. США в месяц сократит время до 6 часов при времени извлечения до 2 часов, но это повлечет за собой более высокую стоимость.

Мне было интересно, есть ли другие методы Azure.Является ли настройка кластера HDInsight с Hadoop или Spark более эффективной по сравнению с масштабированием базы данных SQL Azure до S9 и более?S9 2400 долларов в месяц из 31 дня - 3,28 доллара в час. Кластеры запомненных и оптимизированных узлов Azure HDInsight экземпляра D14 v2 стоят 1,496 долл. В час, поэтому будут дешевле, чем S9.Тем не менее, как это сравнить с точки зрения производительности.Будет ли процесс копирования быстрее или процесс извлечения будет быстрее?

Я еще не привык к методам больших данных.Спасибо за помощь.

1 Ответ

0 голосов
/ 17 декабря 2018

Azure Data Factory Copy Activity предоставляет первоклассное безопасное, надежное и высокопроизводительное решение для загрузки данных.Он позволяет вам копировать десятки терабайт данных каждый день в разнообразных облачных и локальных хранилищах данных. Copy Activity предлагает высокооптимизированную загрузку данных, которую легко настроить и настроить.

Youсм. справочную таблицу производительности для операции копирования: enter image description here В таблице показан номер пропускной способности копирования в МБ / с для заданных пар источника и приемника в одном действии копирования, основанном на внутреннем тестировании.

Если вы хотите, чтобы данные могли передаваться быстрее с помощью операции копирования фабрики данных Azure, Azure предоставляет три способа повышения пропускной способности:

  1. Единицы интеграции данных.Единица интеграции данных (DIU) (ранее известная как Единица перемещения облачных данных или DMU) - это мера, которая представляет мощность (комбинацию ЦП, памяти и распределения сетевых ресурсов) одного устройства в фабрике данных.Вы можете добиться более высокой пропускной способности, используя большее количество единиц интеграции данных (DIU). Оплата производится на основе общего времени операции копирования.Общая длительность, за которую выставляется счет за перемещение данных, является суммой длительности между DIU.

  2. Параллельное копирование.Мы можем использовать свойство parallelCopies, чтобы указать параллелизм, который вы хотите использовать для операции копирования. Для каждого запуска действия копирования фабрика данных определяет количество параллельных копий, которые нужно использовать для копирования данных из исходного хранилища данных и в хранилище данных назначения.

  3. Постановочная копия.Когда вы копируете данные из исходного хранилища данных в хранилище данных приемника, вы можете выбрать использование хранилища BLOB-объектов в качестве временного промежуточного хранилища.

Вы можете использовать эти способы для настройки производительностислужбы фабрики данных с операцией копирования.

Дополнительные сведения о производительности операции копирования фабрики данных Azure см. в https://docs.microsoft.com/en-us/azure/data-factory/copy-activity-performance#data-integration-units

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...