Вы правы, есть .time_*()
методы фильтрации, доступные с TabularDataset
.
Я не знаю, как это сделать, как вы предлагаете (но я согласен, что это было бы полезно характерная черта). Чтобы получить разбиение для каждого устройства, я бы рекомендовал структурировать ваш контейнер следующим образом:
- device1
- 2020
- 2020-03-31.csv
- 2020-04-01.csv
- device2
- 2020
- 2020-03-31.csv
- 2020-04-01.csv
Таким образом, вы можете определить полный набор данных, но также наборы данных для каждого устройства, передав папку Устройство для DataPath
# all up dataset
ds_all = Dataset.Tabular.from_delimited_files(
path=DataPath(datastore, '*')
)
# device 1 dataset
ds_d1 = Dataset.Tabular.from_delimited_files(
path=DataPath(datastore, 'device1/*')
)
CAVEAT
dataprep SDK оптимизировано для больших двоичных объектов размером около 200 МБ. Таким образом, вы можете работать со многими небольшими файлами, но иногда это может быть медленнее, чем ожидалось, особенно с учетом затрат на перечисление всех больших двоичных объектов в контейнере.