Мне нравится находить лучшие способы передачи 20 ГБ данных SQL из базы данных SQL Server, установленной на клиентском локальном сервере Client, в наш Azure SQL Server, Source, на S4 с 200 DTU производительность за 320 долларов в месяц.При первоначальной настройке мы настраиваем фабрику данных Azure, которая копирует более 20 ГБ через несколько копий таблиц, например, содержимое таблицы клиента A в исходную таблицу A, содержимое таблицы клиента B в исходную таблицу B и т. Д. Затем мы запускаем многоЭкстракторы хранят процедуры, которые вставляют в таблицы Stage данные из исходных таблиц, объединяя эти исходные таблицы вместе, например, соединение источника A соединяется с источником B. После этого создаются инкрементные копии, но первоначальная настройка выполняется вечно.
В настоящее время время копирования на S4 составляет около 12 часов, а время извлечения - 4 часа.Повышение уровня производительности до S9 с 1600 DTU за 2400 долл. США в месяц сократит время до 6 часов при времени извлечения до 2 часов, но это повлечет за собой более высокую стоимость.
Мне было интересно, есть ли другие методы Azure.Является ли настройка кластера HDInsight с Hadoop или Spark более эффективной по сравнению с масштабированием базы данных SQL Azure до S9 и более?S9 2400 долларов в месяц из 31 дня - 3,28 доллара в час. Кластеры запомненных и оптимизированных узлов Azure HDInsight экземпляра D14 v2 стоят 1,496 долл. В час, поэтому будут дешевле, чем S9.Тем не менее, как это сравнить с точки зрения производительности.Будет ли процесс копирования быстрее или процесс извлечения будет быстрее?
Я еще не привык к методам больших данных.Спасибо за помощь.