Можно ли использовать Python в конвейере фабрики данных Azure для чтения и преобразования XML файлов, хранящихся в ADLS Gen1? - PullRequest
0 голосов
/ 25 апреля 2020

Я очень новичок в среде Azure и мне было поручено ПО C, которое включает в себя:

  1. Чтение XML файлов из Azure Data Lake Gen1 директорий
  2. Преобразование каждого документа в специфицированные c столбцы
  3. Запись новых строк в базу данных Azure SQL

Я обнаружил, что традиционный конвейерный подход в ADF не очень хорошо работает с XML документами (позор вам, MS!). У меня есть много примеров кода Python, которые читают папки, перебирают их и сохраняют необработанные файлы xml в виде столбцов в локальной базе данных. Мне придется написать преобразования - у Python есть несколько довольно хороших xml библиотек.

В конце концов нам нужно будет определить, являются ли файлы новыми или нет, и включить оркестровку процесса, но обо всем по порядку.

Я просто не уверен, как спроектировать / построить это в ADF. Будут ли задействованы Azure функции? Я пробовал операции поиска и получения метаданных, но все еще сталкиваюсь с трудностями из-за невозможности правильно обрабатывать файлы XML и ожидания заголовков столбцов!

Я видел рекомендации для пользовательских действий с использованием Azure Пакетно, но подумайте, что это излишне.

Надеясь, что кто-то уже прошел этот путь и добился успеха.

Спасибо за ваше время.

...