У меня есть несколько файлов паркетных файлов в разных каталогах
paths = ['adl://entrofi/shift/20190725_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190726_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190727_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190728_060500_20190928_060500/*.parquet',
'adl://entrofi/shift/20190820_060500_20190920_060500/*.parquet',
'adl://entrofi/shift/20190828_060500_20190928_060500/*.parquet']
Каждый файл содержит столбцы A,B,C
Я хочу прочитать все эти файлы, поэтому я делаю
ddf = dd.read_parquet(paths).drop_duplicates()
Однако ddf
содержит столбцы A,B, C and dir0
. dir0
содержит имена папок, из которых был прочитан каждый путь в paths
.
Чтение каждого отдельного файла в paths
не содержит dir0
столбцов.
Как избежатьдобавление dir0
автоматически к моему ddf
?