Пользовательский сценарий в Azure фабрике данных и Azure блоке данных - PullRequest
0 голосов
/ 29 марта 2020

У меня есть требование анализировать множество небольших файлов и загружать их в базу данных в плоской структуре. Я предпочитаю использовать ADF V2 и SQL База данных для выполнения sh. Логи разбора файла c уже доступны с использованием скрипта Python, и я хотел организовать его в ADF. Я мог видеть вариант использования Python разъем для ноутбука для Azure Databricks в ADF v2. Могу ли я спросить, смогу ли я просто запустить простой Python скрипт в Azure Databricks через ADF? Если я это сделаю, я просто запусту скрипт только в драйвере кластера Databricks и не смогу использовать полную мощность кластера. Я также думаю о вызове функций Azure. Посоветуйте, пожалуйста, какой из них больше подходит в этом случае.

1 Ответ

1 голос
/ 30 марта 2020

Просто предоставьте некоторые идеи для справки.

Во-первых, вы говорите о ноутбуках и блоках данных, что означает, что собственные операции ADF копирования и потока данных не могут удовлетворить ваши потребности, так как, как я знаю, АПД может удовлетворить просто простую функцию! Если вы пропустите это, попробуйте сначала.

Во-вторых, если у вас есть дополнительные требования, помимо функций ADF, почему бы просто не оставить это? Поскольку Блокнот и блоки данных не должны использоваться с ADF, почему вы хотите заплатить больше стоимости тогда? Для Ноутбука вы должны установить пакеты самостоятельно, такие как py sql или pyodb c. Для Azure блоков данных вы можете смонтировать azure хранилище больших двоичных объектов и получить доступ к этим файлам как к файловой системе. Кроме того, я полагаю, вам не нужно много рабочих для кластера, поэтому просто настройте его как 2 для макс.

* Я думаю, 1010 *enter image description here

Блок данных больше подходит для управления работой.

Azure Функция также может быть опцией. Вы можете создать большой двоичный объект вызвать и загрузить файлы в один контейнер. Конечно, вы должны изучить основную функцию c из azure, если вы не знакомы с ней. Однако Azure Функция может быть более экономичной.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...