Чтение нескольких CSV-файлов из azure_file_storage gen_1 в блоках данных с помощью Pyspark / Python - PullRequest
0 голосов
/ 10 октября 2019

Это немного сложно из-за требований клиента, я, вероятно, ошибаюсь, поэтому любые советы приветствуются.

У меня есть факториал, который принимает файлы из локального хранилища и сохраняет их в данных лазури. Местоположение озера Генерал 1.

Хранилище файлов Azure DataLake выглядит следующим образом:

dbfs
├───Year
│   ├───Month_1
    │     ├─── Day_1
    │     │    data.csv
    │     ├─── Day_2
    │     │    data.csv
    │     ├─── Day_4
    │     │    data.csv
    ├───Month_2
          ├─── Day_1
          │    data.csv
          ├─── Day_2
          │    data.csv
          ├─── Day_4
          │    data.csv

и т. д.

Что я хочу знать, используя Python, что было былучший способ захватить все эти файлы и передать их в поле с последним измененным временем файла?

как-то так

{data.csv : '2019-10-09'}

Если это невозможно, я могу изучить создание файла JSON с расположением и метаданными файла при каждом запуске конвейера, но я подумал, что это будет простоЗадача с Python.

Я просматривал различные посты, но не нашел ничего, что могло бы указать мне правильное направление. Я пытался использовать pathlib для использования rglob, но он ничего не возвращает.

Добро пожаловать на сайт PullRequest, где вы можете задавать вопросы и получать ответы от других членов сообщества.
...