Копирование фабрики данных Azure из блока Azure в CosmosDB выполняется медленно - PullRequest
0 голосов
/ 20 июня 2019

У меня есть BlockBlob в хранилище Premium Azure. Это почтовый файл на 500 Мб, содержащий около 280 миллионов телефонных номеров в формате CSV.

Я создал конвейер в ADF, чтобы разархивировать его и скопировать записи в Cosmos DB SQL API, но на это ушло 40 часов. Цель состоит в том, чтобы еженедельно обновлять БД с помощью различий в информации.

Моя учетная запись хранения и база данных Cosmos находятся в одном регионе. Ключ раздела Cosmos DB - это код города, который, кажется, хорошо распределяется.

В настоящее время, на 20000 RU я несколько раз увеличил масштаб, но портал постоянно говорит мне увеличивать масштаб. Они предлагают 106 000 RU, что составляет 6 тыс. Долларов в месяц. Любые идеи о практических способах, которыми я могу ускорить это?

Azure Data Factory Pipeline Image

- Обновление.

Я попытался импортировать разархивированный файл, но он не появляется быстрее. На самом деле медленнее, несмотря на сообщения о пиковых соединениях. Importing unzipped DB

Я сейчас пытаюсь динамически увеличивать / уменьшать RU до действительно большого числа, когда пришло время начинать передачу. Все еще играю с числами. Не уверен, что по формуле для определения количества RU мне нужно перевести эти 10,5 ГБ в Х минут.

1 Ответ

0 голосов
/ 19 июля 2019

Я закончил динамическое масштабирование пропускной способности с помощью функций Azure. Да, цена на Космос была бы очень дорогой, если бы я оставил РУ очень высокими. Тем не менее, мне нужно только это высоко, когда я принимаю данные, а затем уменьшаю их. Я использовал приложение логики, чтобы вызвать функцию Azure, чтобы «увеличить RU», а затем запустить конвейер фабрики данных Azure. Когда он выключен, он вызывает функцию Azure для уменьшения.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...