По моему скромному мнению, многое зависит от существующих навыков.Если у вас есть команда, имеющая опыт работы с Spark, Java, Python, r или Scala, то Databricks вам подойдет.Если, с другой стороны, у вас есть команда с существующими навыками SQL и c #, то кривая обучения для них с помощью U-SQL будет менее крутой.
Кроме этого, есть другие вопросы, которые могут устранить различия:
- Требуется ли взаимодействие в реальном времени (блоки данных) или аналитика в пакетном режиме (оба)?Хотя существует элемент обратной связи для интерактивности в реальном времени для U-SQL, , пожалуйста, проголосуйте .
- Хотите ли вы модель с оплатой по факту или U-SQL или кластеры?с автоматическим завершением через определенный период (блоки данных)?
- Вам нравится работать в блокноте (блоки данных) или в Visual Studio / VSCode / Powershell / .net sdk (U-SQL)?
- Хотите ли вы использовать библиотеки Spark, такие как GraphX (Databricks)?
- Хотите ли вы запускать и масштабировать любую среду выполнения (U-SQL)?Подробнее см. здесь .
- Хотите ли вы локальный эмулятор разработки (U-SQL)?Эмулятор U-SQL в Visual Studio прост, т.е. вы разрабатываете свой код для локальных дисков в той же структуре, что и ваше озеро (для free ), а затем просто нажимаете раскрывающийся список в Visual Studio, чтобы запуститьв облаке.Хотя я думаю, что у вас может быть локальная среда Spark, я не уверен, что локальный (и отключенный) опыт разработки для Databricks.
- Используете ли вы ADLS Gen 2 (только Databricks)?См. здесь .
ОБНОВЛЕНИЕ Октябрь 2018 : Насколько мне известно, U-SQL в настоящее время не поддерживает ADLS Gen 2, которыйпосчитал бы против этого (счастлив, чтобы быть исправленным).Я обновлю сообщение , если и когда эта поддержка будет добавлена.
ОБНОВЛЕНИЕ Январь 2019 : U-SQL не имел значимых обновлений с Весна 2018.
HTH