Как выбрать аналитику озера данных Azure и блоки данных Azure - PullRequest
0 голосов
/ 22 мая 2018

Аналитика озера данных Azure и блоки данных Azure могут использоваться для пакетной обработки.Может ли кто-нибудь помочь мне понять, когда выбирать один из других?

Ответы [ 2 ]

0 голосов
/ 11 марта 2019

Базы данных имеет больше языковых опций, которые позволяют профессионалам с различными навыками работать с данными.Также с помощью блоков данных вы можете запускать задания с высокопроизводительными кластерами в памяти.

В проекте мы используем озеро данных в качестве хранилища и выполняем все задания (ETL, аналитика) с помощьюблокнот данных.Хранение данных в озере данных обходится дешевле $.

Вернемся к вашим вопросам, если над вашими данными будут работать сложные пакетные задания, а другой тип профессионала.Вы можете выбрать архитектуру Azure Data Lake + Databricks.В противном случае Azure Data Lake удовлетворит ваши потребности.

Посмотрите эти 2 статьи, которые помогут.https://databricks.com/glossary/data-lake https://visualbi.com/blogs/microsoft/azure/etl-azure-databricks-vs-data-lake-analytics/

0 голосов
/ 22 мая 2018

По моему скромному мнению, многое зависит от существующих навыков.Если у вас есть команда, имеющая опыт работы с Spark, Java, Python, r или Scala, то Databricks вам подойдет.Если, с другой стороны, у вас есть команда с существующими навыками SQL и c #, то кривая обучения для них с помощью U-SQL будет менее крутой.

Кроме этого, есть другие вопросы, которые могут устранить различия:

  • Требуется ли взаимодействие в реальном времени (блоки данных) или аналитика в пакетном режиме (оба)?Хотя существует элемент обратной связи для интерактивности в реальном времени для U-SQL, , пожалуйста, проголосуйте .
  • Хотите ли вы модель с оплатой по факту или U-SQL или кластеры?с автоматическим завершением через определенный период (блоки данных)?
  • Вам нравится работать в блокноте (блоки данных) или в Visual Studio / VSCode / Powershell / .net sdk (U-SQL)?
  • Хотите ли вы использовать библиотеки Spark, такие как GraphX ​​(Databricks)?
  • Хотите ли вы запускать и масштабировать любую среду выполнения (U-SQL)?Подробнее см. здесь .
  • Хотите ли вы локальный эмулятор разработки (U-SQL)?Эмулятор U-SQL в Visual Studio прост, т.е. вы разрабатываете свой код для локальных дисков в той же структуре, что и ваше озеро (для free ), а затем просто нажимаете раскрывающийся список в Visual Studio, чтобы запуститьв облаке.Хотя я думаю, что у вас может быть локальная среда Spark, я не уверен, что локальный (и отключенный) опыт разработки для Databricks.
  • Используете ли вы ADLS Gen 2 (только Databricks)?См. здесь .

ОБНОВЛЕНИЕ Октябрь 2018 : Насколько мне известно, U-SQL в настоящее время не поддерживает ADLS Gen 2, которыйпосчитал бы против этого (счастлив, чтобы быть исправленным).Я обновлю сообщение , если и когда эта поддержка будет добавлена.

ОБНОВЛЕНИЕ Январь 2019 : U-SQL не имел значимых обновлений с Весна 2018.

HTH

...