Azure Data Explorer (ADX) против Polybase против Databricks - PullRequest
2 голосов
/ 27 мая 2020

Вопрос

Сегодня я обнаружил еще одну Azure службу под названием Azure Data Explorer (ADX) . Извините за такое сравнение сервисов, я хорошо разбираюсь во всем, кроме ADX. Я чувствую, что существует большое наложение функциональности, поэтому хочу знать точную роль ADX в инфраструктуре Azure.

Каков вариант использования, когда ADX значительно лучше, чем Synapse / Databricks?

Как я понимаю ADX

AFAIK, ADX - это кластер (с почасовой оплатой, например Databricks или Synapse, а не ADLA), который обрабатывает базу данных для вас и оптимизирован для потоковой передачи прием и специальные c запросы в масштабе. Он также поддерживает внешние таблицы, которые имеют худшую производительность, но дешевле (вы платите за хранилище Blob / ADLS).

Подробнее

Не понимаю, зачем нам ADX, если:

  1. Azure Synapse имеет аналогичную модель ценообразования (кластер, почасовая оплата), а также поддерживает потоковую передачу данных и специальные c запросы в любом масштабе. Azure Synapse поддерживает запросы к BlobStorage / ADLS через внешние таблицы Polybase.
  2. Databricks - это еще одна служба, которая может это делать. Используя Databricks Ingest и Delta Lake, вы можете принимать потоковые данные и использовать их как в потоковом, так и в пакетном режиме. На самом деле у вас может быть интерактивный кластер, который будет обрабатывать за вас специальные c запросы.
  3. Также, если вам нужна аналитика в реальном времени - используйте Azure Stream Analytics. Если вы хотите, чтобы опыт был похож на Афину - используйте ADLA (все же он не поддерживает ADLS gen2).

Ответы [ 2 ]

4 голосов
/ 01 июня 2020

Azure Data Explorer ориентирован на высокую скорость, большой объем и высокую дисперсию (3 против больших данных). Он обеспечивает сверхбыстрые интерактивные запросы к таким данным, которые передаются в потоке. Он поддерживает json и текст изначально, включая полнотекстовый поиск и индексацию.

Он используется в широком наборе сценариев ios, связанных с отслеживанием активности и временных рядов в большом наборе вертикалей: IoT, журналы API, мониторинг транзакций и специальное c исследование данных.

Microsoft предлагает ADX как услугу, поскольку это основная услуга, которую Microsoft использует для собственной телеметрии, и все аналитические решения как услуга, которые мы предлагаем в области безопасности, оперативного мониторинга, игровой аналитики, использования аналитических сведений о продуктах. аналитика, Интернет, подключенные автомобили построены на ADX. Вы можете найти полный список в нашей документации. Для ясности: SQL, Synapse, CosmosDB хранит свою телеметрию в Azure Data explorer ...

SQL DW (AKA Synapse SQL pool) - отличное хранилище данных и реализует современные шаблон хранилища данных. ETL-> Курируемая модель данных-> Загружать и обслуживать через службы анализа или Power BI.
ADX предназначен для аналитики в реальном времени, позволяя применять схему при чтении (SOR) к данным как fre sh, сколько секунд.

Рассмотрите ADX как полностью управляемую платформу при замене вариантов на основе SOLR / Lucine, используемых для журналов, баз данных временных рядов и т. Д.

Попробуйте его в больших рабочих нагрузках, и вы увидите, что он значительно дешевле, чем альтернативы, и намного более мощный и производительный.

Свяжитесь со мной, если вам понадобится помощь.

1 голос
/ 27 мая 2020

Azure Псевдоним Kusto для Data Explorer ориентирован на прием больших объемов данных, а также запросы и аналитику практически в реальном времени. Он изобретен в Microsoft для анализа журналов и телеметрии, но может использоваться и для других целей, например для Интернета вещей, данных датчиков или веб-аналитики. Та же технология используется во внутренних службах Azure, таких как Azure Monitor и Log Analytics.

Подобные возможности могут быть созданы на Synapse, Databricks или HDInsight, но я рассматриваю их как инструменты, которые подходят для более широких вариантов использования. ADX имеет довольно узкую направленность. ADX поддерживает запросы («KQL»), но имеет очень ограниченную поддержку SQL. Он подходит только для добавления данных, а не для обновлений. Это не хранилище данных, база данных или озеро данных.

В материалах Microsoft упоминается технология, лежащая в основе ADX под названием Kusto. Подробнее об этом: https://docs.microsoft.com/en-us/azure/data-explorer/kusto/concepts/. Хорошее сравнение услуг можно найти в этом сообщении в блоге: https://vincentlauzon.com/2020/02/19/azure-data-explorer-kusto

...