Отказ от ответственности: я работаю для Databricks.
Трудно дать плюсы / минусы или советы, не зная, с какими данными вы работаете, с какими данными они работают или какдолго ваши сроки обработки.Если вы хотите сравнить затраты Azure Data Lake Analytics с Databricks, это можно точно сделать, только поговорив с одним из сотрудников отдела продаж.
Помните, что ADLA основан на диспетчере кластеров YARN (из Hadoop)и выполняет только рабочие нагрузки пакетной обработки U-SQL.Описание из голубого гранита :
ADLA is focused on batch processing, which is great for many Big Data workloads.
Some example uses for ADLA include, but are not limited to:
- Prepping large amounts of data for insertion into a Data Warehouse
- Processing scraped web data for science and analysis
- Churning through text, and quickly tokenizing to enable context and sentiment analysis
- Using image processing intelligence to quickly process unstructured image data
- Replacing long-running monthly batch processing with shorter running distributed processes
Блоки данных охватывают как пакетную, так и потоковую обработку, а также справляются с рабочими нагрузками ETL (инженер данных) и наукой о данных (машинное обучение, глубокое обучение).Как правило, вот почему компании используют Databricks.
- Быстрее, надежнее и лучше масштабируется Apache Spark ™ .Databricks создали настроенную версию Apache Spark ™ (Databricks Runtime), в которой есть оптимизации, позволяющие в 100 раз быстрее обрабатывать, чем ванильный Apache Spark ™.
- Устраняет узкие места инфраструктуры, возникающие из-за времени или стоимости установки .Databricks создает за несколько минут кластеры Apache Spark ™ со всеми необходимыми компонентами.Apache Spark ™, Python, Scala, а также все необходимые библиотеки для машинного обучения и глубокого обучения настраиваются без участия Ops / DevOps.Кластеры могут автоматически масштабироваться для использования только дополнительных ресурсов, когда это необходимо, а неиспользуемые кластеры автоматически завершают работу через определенное время, чтобы избежать ненужных затрат.
- Унифицированная аналитическая платформа как для инженеров, так и для ученых ,Инженеры по данным и команды по работе с данными работают совершенно независимо.Существуют недопонимания, отсутствие наглядности в коде и работе друг друга, а также неэффективность конвейера разработки (получение данных, их очистка и подготовка к анализу).Databricks предоставляет записные книжки для совместной работы, которые поддерживают несколько языков (SQL, R, Python, Scala и т. Д.), Так что эти две группы могут работать вместе
- Удаление сложностей из потоковых сценариев использования .В Databricks появился новый продукт под названием Delta, который позволяет поддерживать масштаб озера данных, не сталкиваясь с проблемами надежности, производительности и несогласованности данных, которые часто возникают при обработке больших объемов данных без схемы потоковой передачи, в то время как другие пытаются прочитатьот него.Delta обеспечивает повышение производительности в дополнение к среде исполнения Apache Spark ™ и позволяет выполнять такие действия, как перенос данных на озеро данных (как правило, это чрезвычайно сложно сделать).
- Безопасность предприятия, поддержка, а также опыт работы с искрами .Шифрование, контроль доступа и многое другое с проверенной безопасностью третьей стороны.75% кодовой базы Apache Spark ™ обеспечивается Databricks ', поэтому уровень предоставляемых знаний и опыта выше, чем где бы то ни было.Этим опытом может быть помощь в оптимизации запросов, настройке кластеров, рекомендациях по настройке конвейеров данных и т. Д.
Причин больше, чем этих, но они являются одними из самых распространенных.Вам следует попробовать пробную версию на веб-сайте, если вы считаете, что это может помочь в вашей ситуации.