Как извлечь подстроку из имени файла (которое является датой) при чтении файла в Azure Data Factory v2? - PullRequest
0 голосов
/ 05 августа 2020

У меня есть этот конвейер, в котором я пытаюсь обработать файл CSV с данными клиента. Этот файл находится в Azure Data Lake Storage 1-го поколения и состоит из данных клиентов за определенный период времени (например, с января 2019 г. по июль 2019 г.). Следовательно, имя файла будет примерно таким: "Clients_20190101_20190731.csv" .

Из моей фабрики данных v2 я хотел бы прочитать имя файла и его содержимое, чтобы убедиться, что содержимое (или столбец даты в частности) фактически соответствует диапазону дат имени файла.

Итак, возникает вопрос: как я могу прочитать имя файла, извлечь даты из имени и использовать их для проверки диапазон дат внутри файла?

1 Ответ

0 голосов
/ 06 августа 2020

Я не тестировал это, но вы должны иметь возможность использовать действие получения метаданных для получения имени файла. Затем вы можете получить доступ к выходным данным действия метаданных и построить выражение для разделения имени файла. Если вы хотите проверить данные в файле на основе вывода метаданных (созданного вами выражения имени файла), вы можете использовать отображение потоков данных или передать выражение в блокнот Databricks. Сопоставление потоков данных использует Databricks под капотом. У ADF изначально нет инструментов преобразования, которые вы могли бы sh выполнить. Вы не можете просматривать данные в файле, кроме как переместить их (действие КОПИРОВАТЬ). За исключением операции поиска, которая имеет ограничение в 5000 записей.

https://docs.microsoft.com/en-us/azure/data-factory/control-flow-get-metadata-activity

...