Почему Azure Databricks необходимо хранить данные во временном хранилище в Azure - PullRequest
2 голосов
/ 01 августа 2020
• 1000 сначала перед загрузкой в ​​azure synapse analytics. Зачем нужно сохранять его во временном хранилище перед загрузкой в ​​azure synapse analytics?

1 Ответ

3 голосов
/ 04 августа 2020

Контейнер хранения Azure действует как посредник для хранения больших объемов данных при чтении или записи в Azure Synapse. Spark подключается к контейнеру хранилища с помощью одного из встроенных соединителей: Azure хранилище BLOB-объектов или Azure Data Lake Storage (ADLS) Gen2.

На следующей схеме архитектуры показано, как это достигается с каждой HDFS. мост службы Data Movement Service (DMS) на каждом вычислительном узле, подключающемся к внешнему ресурсу, например Azure хранилищу BLOB-объектов. Затем PolyBase двунаправленно передает данные между SQL Data Warehouse и внешним ресурсом, обеспечивая высокую производительность загрузки.

введите описание изображения здесь

Использование PolyBase для извлечения, загрузки и преобразования данных Шаги для реализации PolyBase ELT для SQL хранилища данных:

  1. Извлечение исходных данных в текстовые файлы.
  2. Загрузить данные в Azure хранилище BLOB-объектов, Had oop или Azure Data Lake Store.
  3. Импортировать данные в промежуточные таблицы SQL Data Warehouse с помощью PolyBase.
  4. Преобразуйте данные (необязательно).
  5. Вставьте данные в производственные таблицы.
...