Это немного сложно из-за требований клиента, я, вероятно, ошибаюсь, поэтому любые советы приветствуются.
У меня есть факториал, который принимает файлы из локального хранилища и сохраняет их в данных лазури. Местоположение озера Генерал 1.
Хранилище файлов Azure DataLake выглядит следующим образом:
dbfs
├───Year
│ ├───Month_1
│ ├─── Day_1
│ │ data.csv
│ ├─── Day_2
│ │ data.csv
│ ├─── Day_4
│ │ data.csv
├───Month_2
├─── Day_1
│ data.csv
├─── Day_2
│ data.csv
├─── Day_4
│ data.csv
и т. д.
Что я хочу знать, используя Python, что было былучший способ захватить все эти файлы и передать их в поле с последним измененным временем файла?
как-то так
{data.csv : '2019-10-09'}
Если это невозможно, я могу изучить создание файла JSON с расположением и метаданными файла при каждом запуске конвейера, но я подумал, что это будет простоЗадача с Python.
Я просматривал различные посты, но не нашел ничего, что могло бы указать мне правильное направление. Я пытался использовать pathlib для использования rglob
, но он ничего не возвращает.