Azure Databricks vs ADLA для обработки - PullRequest
       23

Azure Databricks vs ADLA для обработки

0 голосов
/ 14 сентября 2018

В настоящее время все мои файлы данных находятся в хранилище озера данных Azure. Мне нужно обработать эти файлы, которые в основном в формате CSV. При обработке этих файлов будут выполняться задания для извлечения различной информации, например, для данных за определенные периоды дат или определенных событий, связанных со сценарием, или добавления данных из нескольких таблиц / файлов. Эти задания выполняются каждый день через задания u-sql в фабрике данных (v1 или v2), а затем отправляются в powerBI для визуализации.

Используя ADLA для всей этой обработки, я чувствую, что обработка занимает много времени и кажется очень дорогой. Я получил предложение использовать блоки данных Azure для вышеуказанных процессов. Может ли кто-нибудь помочь мне с этим направлением в разнице между ними, и было бы полезно изменить? Могу ли я изменить все свои задания U-sql в формат записной книжки Databricks?

1 Ответ

0 голосов
/ 15 сентября 2018

Отказ от ответственности: я работаю для Databricks.

Трудно дать плюсы / минусы или советы, не зная, с какими данными вы работаете, с какими данными они работают или какдолго ваши сроки обработки.Если вы хотите сравнить затраты Azure Data Lake Analytics с Databricks, это можно точно сделать, только поговорив с одним из сотрудников отдела продаж.

Помните, что ADLA основан на диспетчере кластеров YARN (из Hadoop)и выполняет только рабочие нагрузки пакетной обработки U-SQL.Описание из голубого гранита :

ADLA is focused on batch processing, which is great for many Big Data workloads. 
Some example uses for ADLA include, but are not limited to:

- Prepping large amounts of data for insertion into a Data Warehouse
- Processing scraped web data for science and analysis
- Churning through text, and quickly tokenizing to enable context and sentiment analysis
- Using image processing intelligence to quickly process unstructured image data
- Replacing long-running monthly batch processing with shorter running distributed processes

Блоки данных охватывают как пакетную, так и потоковую обработку, а также справляются с рабочими нагрузками ETL (инженер данных) и наукой о данных (машинное обучение, глубокое обучение).Как правило, вот почему компании используют Databricks.

  • Быстрее, надежнее и лучше масштабируется Apache Spark ™ .Databricks создали настроенную версию Apache Spark ™ (Databricks Runtime), в которой есть оптимизации, позволяющие в 100 раз быстрее обрабатывать, чем ванильный Apache Spark ™.
  • Устраняет узкие места инфраструктуры, возникающие из-за времени или стоимости установки .Databricks создает за несколько минут кластеры Apache Spark ™ со всеми необходимыми компонентами.Apache Spark ™, Python, Scala, а также все необходимые библиотеки для машинного обучения и глубокого обучения настраиваются без участия Ops / DevOps.Кластеры могут автоматически масштабироваться для использования только дополнительных ресурсов, когда это необходимо, а неиспользуемые кластеры автоматически завершают работу через определенное время, чтобы избежать ненужных затрат.
  • Унифицированная аналитическая платформа как для инженеров, так и для ученых ,Инженеры по данным и команды по работе с данными работают совершенно независимо.Существуют недопонимания, отсутствие наглядности в коде и работе друг друга, а также неэффективность конвейера разработки (получение данных, их очистка и подготовка к анализу).Databricks предоставляет записные книжки для совместной работы, которые поддерживают несколько языков (SQL, R, Python, Scala и т. Д.), Так что эти две группы могут работать вместе
  • Удаление сложностей из потоковых сценариев использования .В Databricks появился новый продукт под названием Delta, который позволяет поддерживать масштаб озера данных, не сталкиваясь с проблемами надежности, производительности и несогласованности данных, которые часто возникают при обработке больших объемов данных без схемы потоковой передачи, в то время как другие пытаются прочитатьот него.Delta обеспечивает повышение производительности в дополнение к среде исполнения Apache Spark ™ и позволяет выполнять такие действия, как перенос данных на озеро данных (как правило, это чрезвычайно сложно сделать).
  • Безопасность предприятия, поддержка, а также опыт работы с искрами .Шифрование, контроль доступа и многое другое с проверенной безопасностью третьей стороны.75% кодовой базы Apache Spark ™ обеспечивается Databricks ', поэтому уровень предоставляемых знаний и опыта выше, чем где бы то ни было.Этим опытом может быть помощь в оптимизации запросов, настройке кластеров, рекомендациях по настройке конвейеров данных и т. Д.

Причин больше, чем этих, но они являются одними из самых распространенных.Вам следует попробовать пробную версию на веб-сайте, если вы считаете, что это может помочь в вашей ситуации.

...