@ Nethim, от моего POV это главное отличие:
Распределение данных:
- Azure ML Ноутбуки хороши, когда Вы тренируетесь с ограниченными данными на одной машине. Хотя Azure ML предоставляет обучающие кластеры, распределение данных между узлами должно обрабатываться в коде.
- Azure Блоки данных с его RDD предназначены для обработки данных, распределенных по нескольким узлам. Это выгодно, когда Ваш размер данных огромен. Если размер данных невелик и может уместиться в масштабируемом отдельном компьютере / если вы используете pandas фрейм данных, то использование Azure блоков данных является излишним
Очистка данных: блоки данных могут изначально поддерживать множество форматов файлов, а запрашивать и очищать огромные наборы данных легко, поскольку это необходимо делать в пользовательских записных книжках AzureML. Это можно сделать с помощью ноутбуков aml, но необходимо выполнять очистку и запись в хранилища.
- Обучение Оба имеют возможности при распределении обучения, в Databricks предусмотрены встроенные алгоритмы ML, которые могут действовать на порции данных. на этом узле и координировать с другими узлами. Хотя это можно сделать как на AzureMachineLearning, так и на Databricks с tf, horovod et c.,
В целом (только мое мнение), если набор данных небольшой, все ноутбуки aml хороши. Если размер данных огромен, тогда Azure кирпичи данных просты для очистки данных и преобразования форматов. Тогда обучение может происходить на AML или на кирпичах данных. Хотя блоки данных имеют кривую обучения, тогда как Azure ML может быть легко с python и pandas.
Спасибо.