Блоки данных, рассматривающие файлы как каталог - PullRequest
0 голосов
/ 03 февраля 2020

Мы столкнулись с проблемой файловой системы Databrick, которая рассматривает файлы как каталог, и мы не можем читать файлы с Pandas. Файлы существуют в Azure Storage Explorer и рассматриваются как файлы, показанные здесь:

enter image description here

Мы смонтировали хранилище с помощью oAuth 2.0.

На кирпичах данных

%sh  ls -al '<path_to_files>'

возвращает следующее:

total 1127
drwxrwxrwx 2 root root   4096 Jan 29 09:26 .
drwxrwxrwx 2 root root   4096 Jan  9 13:47 ..
drwxrwxrwx 1 root root 136705 Jan 28 16:35 AAAA_2019-10-01_2019-12-27.csv
drwxrwxrwx 1 root root 183098 Jan 28 16:35 BBBB_2019-10-01_2019-12-27.csv
-rwxrwxrwx 1 root root 313120 Jan 28 16:35 CCCC_2019-10-01_2019-12-27.csv
-rwxrwxrwx 1 root root 212935 Jan 29 09:26 df_cube.csv
-rwxrwxrwx 1 root root 298228 Jan 29 09:26 df_other_cube.csv

Дело в том, что первые два файла CSV не являются каталогами совсем. Мы можем загрузить их и прочитать их как csv, но мы не можем загрузить их в Pandas фрейм данных.

df = pd.read_csv(rootname_source_test + r'AAAA_2019-10-01_2019-12-27.csv',header=0,sep="|",engine='python')
>>> IsADirectoryError: [Errno 21] Is a directory: '/dbfs/mnt/<path>/AAA_2019-10-01_2019-12-27.csv'

Они генерируются так же, как генерируется 3-й csv, а третий включается в pandas. Иногда они появляются в виде файлов, иногда в виде каталогов, и у нас возникают проблемы с повторным созданием и решением этой проблемы последовательно.

Конфигурация кластера: Runtime 6.2 ML (включает в себя Apache Spark 2.4.4, Scala 2.11)

Любая помощь будет очень признательна.

...