Когда мне следует использовать Azure ML Notebooks VS Azure Databricks? Оба, по моему мнению, являются продуктами конкурентов - PullRequest
0 голосов
/ 01 апреля 2020

Довольно понятный вопрос. Когда мне следует использовать Azure ноутбуки ML VS Azure Databricks? Я чувствую, что эти два продукта сильно перекрываются, и один из них определенно лучше продается, чем другой ..

В основном я ищу информацию о размерах наборов данных и типичном рабочем процессе. Зачем мне использовать блоки данных поверх AzureML, если у меня нет ориентированного на Spark рабочего процесса?

Спасибо!

1 Ответ

1 голос
/ 02 апреля 2020

@ Nethim, от моего POV это главное отличие:

  1. Распределение данных:

    • Azure ML Ноутбуки хороши, когда Вы тренируетесь с ограниченными данными на одной машине. Хотя Azure ML предоставляет обучающие кластеры, распределение данных между узлами должно обрабатываться в коде.
    • Azure Блоки данных с его RDD предназначены для обработки данных, распределенных по нескольким узлам. Это выгодно, когда Ваш размер данных огромен. Если размер данных невелик и может уместиться в масштабируемом отдельном компьютере / если вы используете pandas фрейм данных, то использование Azure блоков данных является излишним
  2. Очистка данных: блоки данных могут изначально поддерживать множество форматов файлов, а запрашивать и очищать огромные наборы данных легко, поскольку это необходимо делать в пользовательских записных книжках AzureML. Это можно сделать с помощью ноутбуков aml, но необходимо выполнять очистку и запись в хранилища.

  3. Обучение Оба имеют возможности при распределении обучения, в Databricks предусмотрены встроенные алгоритмы ML, которые могут действовать на порции данных. на этом узле и координировать с другими узлами. Хотя это можно сделать как на AzureMachineLearning, так и на Databricks с tf, horovod et c.,

В целом (только мое мнение), если набор данных небольшой, все ноутбуки aml хороши. Если размер данных огромен, тогда Azure кирпичи данных просты для очистки данных и преобразования форматов. Тогда обучение может происходить на AML или на кирпичах данных. Хотя блоки данных имеют кривую обучения, тогда как Azure ML может быть легко с python и pandas.

Спасибо.

...