Контейнер хранения Azure действует как посредник для хранения больших объемов данных при чтении или записи в Azure Synapse. Spark подключается к контейнеру хранилища с помощью одного из встроенных соединителей: Azure хранилище BLOB-объектов или Azure Data Lake Storage (ADLS) Gen2.
На следующей схеме архитектуры показано, как это достигается с каждой HDFS. мост службы Data Movement Service (DMS) на каждом вычислительном узле, подключающемся к внешнему ресурсу, например Azure хранилищу BLOB-объектов. Затем PolyBase двунаправленно передает данные между SQL Data Warehouse и внешним ресурсом, обеспечивая высокую производительность загрузки.
введите описание изображения здесь
Использование PolyBase для извлечения, загрузки и преобразования данных Шаги для реализации PolyBase ELT для SQL хранилища данных:
- Извлечение исходных данных в текстовые файлы.
- Загрузить данные в Azure хранилище BLOB-объектов, Had oop или Azure Data Lake Store.
- Импортировать данные в промежуточные таблицы SQL Data Warehouse с помощью PolyBase.
- Преобразуйте данные (необязательно).
- Вставьте данные в производственные таблицы.