Как использовать фабрику данных Azure для разделения результатов запроса базы данных на несколько файлов больших двоичных объектов для приема в виде снежинки? - PullRequest
0 голосов
/ 28 февраля 2019

Мы использовали функцию копирования ADF для извлечения отдельных файлов из таблиц базы данных в отдельные файлы BLOB-объектов.У нас регулярно есть файлы размером 8-12 ГБ, некоторые из них иногда намного больше.При загрузке в Snowflake кажется, что загрузка Snowflake использует 1 поток на файл - это означает, что загрузка одного файла может занять более часа.Напротив, когда мы смотрим на 9 ГБ больших двоичных объектов из источника API, который вынуждает нас разбивать на страницы (что приводит к сотням файлов размером ~ 50 МБ), мы видим время загрузки около 2 минут из-за параллельной обработки.

То, что мы действительно хотим сделать, это: 1. Выполнить полное извлечение, чтобы все данные были загружены (мы рассмотрели разбиение, но похоже, что оно попадет в таблицу несколько раз для каждого запуска - мы хотим, чтобы вседанные на определенное время и не хотят, чтобы данные менялись между прогонами).2. Напишите несколько файлов из этого извлечения, предпочтительно по размеру файла, но если бы мы могли выбрать количество записей, мы могли бы использовать метод проб и ошибок, чтобы точно определить размеры файлов, которые мы ищем.

Мы опробовали таблицы BLOB-объектов Azure в качестве промежуточной области, но они имеют ограниченные типы данных, которые конфликтуют с нашими исходными типами данных.Наши источники различны и в предварительном порядке: Oracle, MySql и SQL Server (пока).Мы рассмотрели новые потоки данных в ADF, но они находятся в режиме предварительного просмотра и работают только с источниками SQL Azure.

Есть ли способ разбить ваши записи в ADF?

Спасибо!

1 Ответ

0 голосов
/ 12 марта 2019

Есть альтернатива фабрике данных.Существует продукт от Matilion, который создан специально для Snowflake и имеет большинство разъемов и возможностей Data Factory.Вы можете найти «Matilion ETL для Snowflake» на торговой площадке Azure («Создать ресурс» на портале Azure).

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...